“千人千面”技术也可以简单理解为“推荐算法”, 是一种基于用户行为的大量样本统计和协同过滤,对用户需求进行预测的技术。
接触到“千人千面”是在09年底,当时刚从淘宝店主进入B2C领域成为职业经理人。在学习电商行业知识和实践的过程中,发现亚马逊的“千人千面”,觉得特别有意思。
2009年,经过5年发展的淘宝已拥有了百万卖家和过亿的SKU。
对于快速发展的淘宝我有一个非常大的困惑和疑虑: 不断增长的卖家和商品似乎永无止境,可是作为买家在没有上限的卖家和商品中, 如何 更高效率地找到自己喜欢的和真正需要的?
毕竟越来越多的数据表明,搜索结果买家基本上在第三页就很少再往后翻页查看其它商品。
除了搜索,买家获取商品的其它方式主要是:通过点击“类目”进入;促销和专题页;广告位。
这个困惑和疑虑我始终在思索,却无法找到解决方案。最终它却成了淘宝的“摇钱数”,淘宝直通车和钻展赚得盆满钵满。
纵是如此,仍然觉得这个矛盾迟早会出问题的。
大洋彼岸的美国亚马逊的“千人千面”技术正好可以解决这个问题,这让我兴奋不已,开始进行学习和研究。
10年底被猎头挖到北京之后,发现当时北京的当当、京东甚至亚马逊中国还在跑马圈地的初期,而且流量红利和PC时代越来越大的屏幕空间也使得这个矛盾并没有这么突出。
我则投身到家居建材和百货行业线上线下结合的实践当中,偶尔遇到研究“千人千面”的技术人员,会进行一些简单的交流。
中国传统电商的 “千人千面”简史
直到移动互联网时代的到来,面对3寸的小小智能手机屏幕,缩小版的淘宝、天猫、京东、当当们都显得异常拥挤、体验极差,消费者纷纷逃离,有些开始回归正在热火朝天开店的线下购物中心和新业态的实体店。
而且随着微信的用户规模不断快速增长,基于微信的电商SAAS开店工具和微信去中心化的结合,同样继续分流传统中心化电商的商家和用户。
12年,马云急得叫嚷着要通过“来往”的社交软件把企鹅赶回南极。刘强东则选择在14年上市前让腾讯成为第一大股东,获得微信和QQ重要的流量入口。
马云不仅没把企鹅赶到南极,“来往”和接班人陆兆禧在不到两年时间沉寂,成为移动互联网发展初期阿里成立以来最大的败笔。
张勇接棒后,马云开始提出新零售和“五新战略”,避开微信的正面战场,转战线下。
淘宝新掌门,80后的蒋凡同台登场,“千人千面”计划开始进入落地实施阶段。并且寻求社交电商的突破,有了现在一直独秀的淘宝直播。
同期,京东在获取微信的流量过程中,发现原来的问题并没有被解决,流量分配模型完全不同于PC大屏时代。
于是启动“千人千面”计划,试图解决流量分配和转化率问题,以期提升用户体验并让用户重回京东,保证一定程度的增长率。
到18年,中国真正做出“千人千面”拥有相应的成熟技术的只有淘宝和京东。
随着拼多多在18年的成功上市和独立app的发展,拼多多成为中国第三家拥有“千人千面”技术的电商公司。(腾讯和今日头条同样拥有“千人千面”技术,但是和电商的比起来,资讯类的要相对容易一些)
“千人千面”到底有多难?
“千人千面”技术也可以简单理解为“推荐算法”, 是一种基于用户行为的大量样本统计和协同过滤,对用户需求进行预测的技术。 由于电商涉及“转化率”,“推荐算法”需要对这个指标负责,所以实现的难度比资讯类的大得多。
从买家角度而言,这种技术会让用户真正高效地获取需要的、感兴趣的商品;从卖家角度而言,则可以扩展竞争维度,减少单一维度(排名)的竞争压力,投入更少获得更高销售。
最重要的是,长尾商品通过“千人千面”真正能够公平地展示在消费者面前并产生购买。
《长尾理论》是中心化电商发展的重要理论,经过近30年的发展,已经到了长尾理论2.0的阶段。
我在《严选精品电商们崛起,长尾理论失效了吗?》一文中对长尾理论2.0进行了较为深入的研究,得出的结论就是长尾理论仍然有效。(对长尾理论想更多了解的朋友,可以点击文章标题阅读或直接购买对应的专业书籍阅读)
让我们从简单的场景来理解“千人千面”技术:
诸如此类,都属于“千人千面”的“推荐算法”根据个人的行为数据精准推荐相应的商品和信息。
或许这些场景让人感觉个人隐私信息被泄露了。其实像淘宝、京东、天猫这样的电商平台和微信、微博这样的社交工具和社交媒体本身不会窃取你的个人隐私的,但是你的行为数据让平台知道你的需求,然后通过“算法”进行商品和信息的推荐。
电商平台会采集更多个人行为数据,比如使用过的手机、上过的app、看过的新闻、打车的频率、发红包的金额次数、欠银行的贷款、地图数据等等,这些都会构成一个人数以万计的事实标签。
标签的采集和架构设计相对还是容易的,如何建立标签模型并准确的预测用户的需求则是最难的。
以下技术部分参考了CSDN的技术博客及结合我个人的研究和理解,欢迎感兴趣的朋友留言参与讨论和交流。
我们拿淘宝首页内容板块为例,常规的行为推荐算法是类似这样的公式: 内容访问权重=行为权重*时间权重*衰减因子
行为权重: 点击一件商品或一篇文章,留言、点赞、加购物车等行为,都会计入行为权重,根据平台积累的大数据,计算出了不同类目不同产品下的各种操作行为权重分数,在用户进行回复,点赞,收藏等行为时进行权重加分。
时间权重: 停留时间越长,时间权重也会越高。
这也能解释为什么电商平台和内容平台适合做“千人千面”,因为都在追求停留时间,电商平台的停留时间长有利于提高转化率,内容平台的停留时间长有利于广告点击。
衰减因子: 用户的单次行为不能作为用户喜好的直接评定,随着时间的推移权重也会慢慢衰减。
由这三个权重维度的综合计算得到了我们的内容访问权重,在我们多次访问同类型内容时,每次都会获得对应的内容访问权重,平台对这些权重进行累加,然后利用神经网络的阈值函数(Sigmoid函数)进行标准化。
然后可以得到一个阈值为(0,1)的结果,通常推荐算法标准化过程是对Sigmoid函数的变形公式,得出一个阈值位0-10的结果,也就是我们所说的质量分(淘宝直通车的质量分也是以这样的方法计算来的)。
权重(或说质量分)越高,内容板块推荐类似内容的比例和频率就会越高,这就是行为推荐算法(你的行为影响了你)。
目前已知世界上所有推荐算法的处理过程都是类似如此的,没有太大差异。
另外需要简单说明的是拼多多的拼团模型在进行“千人千面”的实施过程中,人的社交关系将成为新的数据源,这个部分可以让推荐比淘宝、京东、天猫更精准。(详见深度分析文章《拼多多的底层价值逻辑》)
这个过程,也就是大家常说的打标签(比如我们搜索看过一个产品后,猜你喜欢就会推荐类似的产品,并且看过多种产品,猜你喜欢推荐的频次是不一样的)。
限于篇幅,关于“千人千面”技术部分就不再过多赘述,如果想进一步学习的,可以到专业的技术论坛和博客深入学习,或者买一些专业的书籍好好看看。
传统电商平台“千人千面”的问题
前面之所以花这么长的篇幅来分析“千人千面”,主要得出三个结论。
(1)随着电商平台的用户规模、商家规模和商品规模的无穷增长,“千人千面”技术很好地解决了三者匹配和效率的问题,从而提升电商的转化率和用户体验。
(2)“千人千面”实现的难度非常大,一方面非常有足够的用户、商家和商品数据;另一方面要有强大的算法建模能力;最后还要有硬件的算力支持(阿里云、亚马逊云发展的领先这是主因)。
(3)“千人千面”看起来很美好,却有三个技术无法突破的问题:
没有想像中“精准”。因为购物决策受到的干扰因素太多,现阶段均是“网络行为”的数据,并没有“思维数据”和“生物数据”,机器无法感知人真实的感受和想法;
延迟问题。毕竟聊天或者浏览的那一刻到打开电商平台短短几秒时间,购买决策已经发生了很大的改变,甚至是没打开就变化了。人们总习惯:我只是说说而已;
涉及隐私问题和歧视且是违法行为。《电商法》明确规定:电子商务经营者根据消费者的兴趣爱好、消费习惯等特征向其推销商品或者服务,应当同时向该消费者提供不针对其个人特征的选项,尊重和平等保护消费者合法权益。就是说,如果强制推送根据“大数据”推算出的内容给消费者,是违法的!
其次,作为线下的传统零售商和新兴电商公司,很难实现这样的“千人千面”,哪怕是有钱也没有那么多的算法和技术人才。这些人才都被BATJ、TMD们早早地收了。
如何突破技术和人才壁垒实现“千人千面”?
根据观察和研究,新兴的社交电商和社区团购(含传统零售商做的社交电商和社区团购)从“微信群”的方向实现了“千人千面”。
在去年我就成了每日一淘的VIP,在今年又加入了环球好货的VIP,并在近一年左右的时间里加入了几个社交电商和社区电商的群。
发现成交率高的“群”有四个特点:
微信的群没有上限,一个人想建多少个都可以,而且没有门槛,建群非常简单;
以“人分”、“小区分”、“品类分”等等可以不断按照不同属性和维度细分的各种各样的群;
通过群里聊天的去中心化“社交”方式,获取单个个体真实的需求并通过群主(团长)从不同的社交电商或社区团购平台获取对应的商品并进行推荐;
由于是基于“人”的唯度,所以除了购买商品之外,还可以群里聊聊宠物和小孩教育,这种“千人千面”变得有温度。
借助几万人、几十万人建立几万个、几十万个甚至几百万个群实现“千人千面”不仅在理论上成立,也能真正落地。
已经有社交电商和社区团购企业完成了这种规模的“群”的建立,并取得年销百亿甚至千亿级销量。这些并不需要用到传统电商平台的“千人千面”技术投入和研发周期。
当然,随着VIP代理和“团长”们理论上的数量无穷增加,后台的商品的无穷增加,或许到了一定规模之后,传统电商平台针对VIP代理和“团长”们的“千人千面”技术也会被提上日程。
那个时候这些社交电商和社区团购平台将再次变得“传统”,新的挑战者又该出现了!