做推荐是有套路的。本文根据在国际短视频业务的经验,总结一些个人的思考。本文不涉及具体算法。
1. 推荐的本质是什么? 是内容和数据。
内容就是你要提供给用户的东西,例如你的视频库,UGC、PGC什么的。用户最根本的目的还是消费优质内容。没有好的内容库,是推不出东西的。
数据指的是用户的行为数据。没米是做不了饭的,没有数据任何算法都是走不通的。很多高大上的词,用户画像什么的,本质上都是对用户行为数据的抽象而已。另外,给内容打标签、打质量系数分也可以用用户行为数据。
推荐的本质,就是根据用户行为数据,提供更满足用户的内容。 2. 一个怎样的产品才能做推荐? 在我看来,至少包括两个要素:
1)足够大量的内容和数据 内容不够多的话,做榜单就行了,做个毛线推荐。
数据不够大的话,再好的算法训练出来都一坨翔。
做推荐准入门槛很高,是个贵族游戏。
2)产品形态有推荐的原动力 什么意思呢?一言难尽。
产品经理喜欢拷问一些诸如“为什么要做推荐?做推荐对产品有啥用?是不是有些用户不喜欢推荐”之类的问题,在我看来这是蛋疼问题,推得好数据一定会更好,问题就是
你的产品未必能推得好啊。
推荐应该是个研发主导的事情,首先要拷问的是这个产品的数据流是否能否支撑某种推荐模型,要拿什么、怎么训练、出些啥、可以干啥。如果数据流最多做做协同,那硬要做feed流一定会死很惨。
满足有推荐的原动力的产品,这里举几个例子:
1)用户帮你打标签,例如知乎、网易云音乐。形成这样的产品形态不容易。
2)搜索渗透高的产品很适合做推荐,搜索是挖掘推荐数据的大金矿。
3)外部数据(如爬虫)能起很大作用的产品,例如各种图文信息流产品。
一个产品纯靠推荐来运作是很难的,往往是搜索、分类、榜单、用户、外部数据等所有加起来给推荐提供训练数据。大中台战略,倒是让许多本来不好做推荐的产品也能给你推了。
3. 推荐的大套路 1)收集数据 收集数据永远是第一步。需要了解手中的数据是怎么来的,到底是用户干了啥产生的。并且最好建立感性的认知,这样对后续的ETL、算法选择、调参、模型解释等各个环节都有很大帮助。
2)建立指标 一定要先建指标,否则是没办法验证推荐效果的。常见的有CTR、PV、UV、人均等,结合自己产品形态来设计。
3)实现推荐流程 到这里才是算法选择和工程实现。一般来说,能做推荐的产品规模都不会太小,所以会遇到各种高并发、分布式存储与计算等工程问题。
推荐算法只是推荐整个流程的一个小块,做推荐的往往需要算法、大数据、数据分析、产品思维等多种能力,非常苛刻。
4)不断地优化 就是不停地ABTest、调参、更新策略、更新算法,一步一步提高指标。
4. 推荐的小套路 @海洪 传授的秘诀是四个字,
热推多补。
热指的是榜单内容,多用于冷启动。
推指根据短期、实时反馈的数据进行的即时推荐,效果最显著。
多指多样性,不能老是推用户爱看的,这样会收敛。你永远需要补充一些用户没看过的来让用户发现新的大陆。
补指补充,指的是根据长期数据、近线计算的用户画像推荐的内容,可以起到良好的补充作用。
以热推多补作为指导思想,建立推荐模型、推荐策略。