一、智能语音助手加速发展 技术驱动是主因
智能语音助手成为2017年CES和MWC热点之一,内置智能语音助手的产品覆盖多个领域、多个品牌的多类产品,例如福特汽车、惠而浦、LG等家电厂商的洗衣机、电冰箱、电烤箱等家用电器,LG家庭机器人和 华为 智能手机等,智能语音助手俨然成为诸多智能产品的核心配置。智能语音助手在2016年呈现了加速发展之势,体现在以下方面:
智能语音以智能家居做为切入点快速发展。苹果公司早在2011年就发布了智能语音助手,但其快速发展是以2016年亚马逊Alexa的快速发展为标志,一是销量迅速增长。亚马逊旗下内置Alexa的语音购物助手Echo客户渗透率已由2%提升至5%,截至2016年年底,亚马逊共卖出600万台Amazon Echo设备[1]。二是智能语音助手功能急速完善。Alexa在2014年最初发布时只有13个内嵌的技能,现在这项功能已经兼容7000款应用,包括连接Uber、Twitter等应用程序。用户可以通过Echo的语音识别功能,操控任何一项具有联网功能的设备,比如电灯、电视、空调等等。三是生态快速扩建。2015年12月,英特尔与亚马逊联合宣布,双方未来将在一系列智能家庭项目上合作,并计划开发一个采用英特尔芯片、搭载亚马逊Alexa虚拟助理的智能语音架构。汽车生产商福特在本届CES上也宣布与亚马逊合作,未来车主将能够在福特的车辆上体验Alexa语音服务,实现声控购物、搜索导航,甚至车主在家就可以通过语音指令启动引擎、锁定或解锁车门。LG、GE等众多企业都与亚马逊达成协议,将自家产品内嵌Alexa。
深度学习算法助力语音识别技术提升是智能语音助手快速发展的主要原因。近两年,深度学习算法得到快速发展,其成果率先应用于语音识别等领域,推动其取得突破性进展。2016年,《麻省理工科技评论》将语音识别和自然语言理解相结合,评为2016年十大突破技术。应用于语音识别的深度学习算法的卷积神经网络层级(CNN),从最初的8层,到19层、22层、乃至152层的网络结构,而随着网络结构的加深,语音识别的错误率也从2012年的16.4%逐步下降到3.57%[2]。许多公司的语音识别系统语音识别正确率超过90%,在很多场合的已经超过人类。
二、智能语音助手将成为新的用户入口
语音将成为主流人机交互方式之一。语音交互方式将人们的双手从触摸屏解放出来,减少人们在数据输入上花费的时间。但语音交互并不适用于所有场景,例如公共场所跟手机对话是不礼貌的。这时通过屏幕交互可能比语音更方便。较适合语音应用的设备包括家居和汽车,这也是亚马逊Alexa虽然比苹果Siri推出晚,却能取得更快增长的原因之一。
当前的各种智能语音交互助手,只是虚拟个人助理(VPA)的雏形,VPA将具备完善的私人助理功能,成为用户连接服务的节点,提供无所不在的服务。VPA将与众多第三方app程序交互,用户需要某类服务时均可告知VPA,VPA可搜索并决定调用哪款app提供服务,单独app将从桌面移至后台,成为VPA的一个子服务;VPA还具有学习能力,根据历史数据掌握用户的偏好、习惯等,对用户需求做出预判,提供符合用户个性特点的不断优化的服务。
三、巨头加快展开智能语音助手生态布局
巨头已悉数入场,争抢智能语音交互新入口。苹果是发展智能语音助手的先锋,于2011年在iPhone中内置了智能语音助手产品Siri。谷歌2012年发布了名为Google now的智能语音产品,并于2016年推出演进产品Google Assistant。亚马逊于2014年推出内置语音助手Alexa的无线音箱产品。微软发布智能语音助手时间相对较晚,其智能语音助手产品Cortana于2015年与新的Windows 10操作系统一同发布。Facebook于2015年推出智能语音助手服务M,内置AI技术,并有一个人工团队支撑。百度也于2015年发布名为Duer的智能语音助手产品。三星2016年收购了智能语音助手技术公司Viv,并计划于2017年推出相关产品。这些厂商均拥有一个主导的生态,例如电子商务,搜索引擎,智能手机,这些都提供了大量的数据来支撑这些具体平台的智能语音助手。大量用于“学习”的数据,使得AI更有效率,使得推荐和定位更加细致入微。
亚马逊暂时领先发展,未来竞争格局存在变数。亚马逊搭载Alexa无论从销量、功能、生态等方面,均领先于苹果和谷歌。然而,设备仍然是智能语音助手成功的关键,智能语音助手需要有足够大的设备平台作为分发接口,提供随时随地、无所不在的服务,随身携带的手机是较为理想的硬件载体。苹果和谷歌已经在智能手机领域成功,未来可能后来居上,占据主导位置。
巨头围绕智能语音助理展开生态布局,推动跨平台、跨系统的智能语音助手应用。厂商通过开放api、与第三方app互动等形式扩大生态建设,推动语音助手在手机、家居、汽车等领域应用。亚马逊采取开放Alexa的语音技术供第三方开发者免费使用。此外亚马逊没有对合作伙伴设置独家合作协议,硬件制造商可以自由切换到竞争对手的语音助理,这也使得硬件厂商更乐于集成Alexa。苹果早在2014年就发布了自家的智能家居平台HomeKit,并不断加强HomeKit与Siri的融合;2016年6月,苹果宣布开放SDK 给开发者们,允许其他的第三方应用接入 Siri。谷歌也表示将向开发者和第三方软硬件开放assistant。
当前智能语音助手商业模式呈现多样化。目前较为成熟的亚马逊的商业模式。亚马逊的核心零售业务内置于Echo中,用户与 Echo 的互动会鼓励用户更多地去购物,而且会将更多的数据反馈给亚马逊的推荐系统,因此网站和应用程序都可以再次促进用户购买更多商品。另外一种是利用智能语音助手实现对用户更深层次理解,实现更精准的用户定位。智能语音助手有着用户需求的详细数据集,结合对物理行踪、搜索历史以及电子邮件和文本内容的了解,可实现更好的广告定位,Google和Facebook等公司目前主要采取此种收入模式。
四、智能语音助手当前发展仍存不足
使用习惯还有待培养
根据Gartner的调查数据,用户经常使用智能语音助手的两至三个功能—天气、位置和日历核对。Echo虽然拥有上千种功能,但是大部分功能用户并不会使用,用户使用亚马逊Echo的最的功能是设置时间和播放歌曲,80%以上用户使用过[3]。
市场碎片化
目前,市场上有多家厂商提供智能语音助手服务,这些厂商与不同的设备厂商达成合作,形成了各自为阵的生态系统。内置智能语音助手的设备商,必须对现存的替代方案开放,并与不同的服务提供商协作,才能提供便于用户使用、尤其是跨平台使用的服务。
隐私问题
理想情况下,个人鉴别信息应该安全地存储在用户设备上,并且不会泄露给智能语音助手提供商或者其他服务提供商。但是实际上智能语音助手需要把用户数据上传至云端服务器,经过计算后将结果返回到终端,涉及到云端存储保障隐私问题。
技术瓶颈
智能语音助手还存在语义理解方面的问题。虽然语音识别技术这两年取得了较大进步,但理解整个对话的环境和上下文语义,是目前绝大部分机器学习或人工智能的瓶颈,机器还很难将词语表达的意思与语境和情绪相结合。
五、国内与国外同步发展
一方面,语音识别技术与国外发展同步。科大讯飞在国际最高水平语音合成赛Blizzard Challenge 中十连冠,14、15 年两次国际汉英翻译大赛IWSLT 全球第一、15 年机器口语翻译系统获NIST 国际评测冠军,在车内语音方面交互成功率更是超过86%,领先第二名高达10%[4]。
另一方面,本土智能语音助手相较国外产品具有竞争优势。百度是除美国公司之外,同规模公司中唯一一个运营智能语音助手的。百度智能语音助手Duer可提供搜索信息、预定电影票、叫出租车等助理服务,采用端到端的深度学习系统,有时它在识别汉语语音片段方面,要比人为识别更加准确。国内的大量人口和强劲的中国内容数据库是Duer的竞争优势,相比于微软Cortana,百度的搜索引擎数据库更具优势,谷歌则至今在中国没法使用,使得Duer成为最受中国市场驱动的智能语音助手。Duer内置于百度安卓搜索app中,安装在中国上百万手机中。百度正在致力于将Duer扩展至手机以外的其他设备,例如机器人或者家庭设备。