天天都说人工智能,它在哪儿呢?
现在,与我们最近距离的人工智能,其实就在指尖。当你在手机上打开一款新闻客户端,可以看到,那些根据你的兴趣所推荐的资讯、消息,陈列在上。过去我们说,阅读的方式,现在早就变成了“兴趣阅读”。
在此,天天快报的产品总监赵林分享了他对当前兴趣阅读的看法(以下文字基于赵林的分享进行梳理,略有调整):
去中心化传播形态,让自媒体爆发
到了微博和微信的时代,变成一种去中心化的交流方式。每一个人都是一个小的媒体,都可以发出自己的声音,这个时候就带来自媒体的一个蓬勃的发展。
试想一下,原来每个门户网站或者报纸也好,他们很难开一个非常小众的一个频道,或者一个栏目出来给大家去阅读。它可能受众只有几千个或者几万个人,这样其实也达不到他们的商业目的。
但是作为一个自媒体而言,比如一个喜欢钓鱼的自媒体,他的受众可能也就几万个,或者一两千个人,但是因为他的兴趣,他可能对(内容的制作与传播)不亦乐乎。
现在内容的生产极大爆发,这些自媒体人发挥着很大的作用,不管他们是追热点也好,还是从个人兴趣出发也好。其实,我们平时可见的一些追热点的自媒体内容,包括小李子、或者小金人,包括酒店遇袭等等,他们写得又快而且又有深度。
内容的自动分配
不同的内容会有着不同的平台去分发。这里面我举几个简单的分发的例子。
第一个就是传统的门户网站,传统的门户网站它的分发方式比较简单,就是类似于目录树结构的,就是你可以找每个频道,每个频道下面有不同的内容。
然后像类似微博、微信这样的,你先要去先 follow 它,有一种粉丝订阅关系。可以去通过转发把这些内容进行扩散。
再到最后一种,就是我们天天快报和今日头条一起在做的“兴趣分发”,就是根据用户的兴趣去把这些内容传播和扩散出去。
天天快报这类产品,和传统的新闻客户端相比有明显的区别,前者是为移动而生的。
一篇文章从发布到最后推荐到首页,大概是一个什么样的流程呢?首先机器会判断这篇文章是不是政治敏感或者色情的文章,或者说它是不是一个质量偏低的文章。
如果是可能会被我们的系统拦截一下,然后进入到排重的一个体系里面去,看下这篇文章是不是以前发布过;然后,进入下一个环节,开始通过机器给文章内容分类的过程,当机器给文章进行分类之后,系统会给文章打上标签,这些标签是和文章属性有关的重要信息,然后转给推荐系统,推荐系统再根据这些文章的特点去找它更合适推荐的用户。
很多时候我们是把文章,比作食材。就好象厨师一样,思考如何把这些食材进行搭配,做成一道菜,给我们的顾客。
这个过程中,如果你总是去给用户推送一些硬菜,顾客吃多了会腻。所以针对用户的兴趣阅读,我们也有考虑多样性内容的搭配。结果,有时候我们推送的文章,并不完全是你以前看过的、喜欢看的那些内容,是提供一些新内容,摸索你新的一些兴趣。
推荐系统最主要的是识别人和识别内容这两块,只有你识别了人和识别了内容你才能够比较好的对这些人和内容进行连接和匹配。识别人方面肯定不是简单的记录,它里面会有一些比较重要的规则。比方说哪些兴趣是可以划分为这个用户的真实兴趣,哪些兴趣可能不是他的真实兴趣。
天天快报如何推送内容?
识别文章方面,需要去建足够多的案例,这方面其实是拼时间和耐力,需要我们长期在里面投入。在我们工作的时候,经常会看到很多奇怪的内容。比方说有些人的文章经常会写一些很有名、很牛的一些大佬,但仔细一看,这些文章都是标题党,他根本并不是说写这大佬真正的去做了一件比较有意义的事情,而是可能偏一些心灵鸡汤,或者只是拿大佬的名字做 SEO 上的优化。
除了要去重、识别标题党外,在识别文章内容方面,我们还很看重用户的地理位置信息。我们内部有一个“即时地”的标记,就是用当时在什么地方,除此之外,也会有一个常驻地的概念,就是用户经常出入在哪,这样可能会不一样。时间是另一个我们很看重的维度。
所以综合地理、时间以及其它文章内容以外的信息,我们会根据场景推荐来推荐内容。场景推荐的时候会给用户大的或小的惊喜。
在内容推荐上我们以前写了很多人工规则,可能算下来有好几百条。比方说有些内容在什么时间段可能不适合推出,有些内容推出的时间只有多长时间,慢慢地这些内容,这些信息我们可能都希望机器自学习,根据这些用户以及这些用户群的信息去自发展,也就是所谓的说用这个产品的人越多,可能天天快报的推荐效果会越好。