设为首页 - 加入收藏
热搜: 网络推广 电子商务
广告位
当前位置: 网销中国 > 网销资讯 > 业界新闻 >

搜狗做AI:围绕语言,力出一孔

2018-07-15 18:52 [业界新闻] 来源于:网销中国
导读:数千万年前,猿猴为了生存,学会使用石器,跳下大树直立行走,从而为人;人类为了更好地交流,发展出语言;为了记住过去,又发明了文字,从此人类有了有记载的历史。 人类

 数千万年前,猿猴为了生存,学会使用石器,跳下大树直立行走,从而为人;人类为了更好地交流,发展出语言;为了记住过去,又发明了文字,从此人类有了有记载的历史。

人类跑得不够快,所以发明了汽车;人类的声音传播得不够远,所以发明了电话;人类不会飞,所以发明了飞机。

六十多年前,人类发明了人工智能(AI),一种能帮助人类,却也可能“替代”人类的新物种。

六十多年后,借助“深度学习”的东风,人工智能再次站在了产业界的风口。一时间,百花齐放,企业言必谈AI。

在亚洲最大的科技峰会——香港RISE大会上,有演讲者给参会者展示了虚拟人,有演讲者发动所有参会者进入“AI能否像人类一样具有创造力”的思考当中去。搜狗的王小川,竟然带来了能够像真人一样播报新闻的“虚拟主播”。

AI能力进化史,搜狗浓墨重彩的一笔

2018年7月11日,央视主播“姚雪松”播报香港RISE科技峰会相关新闻的视频出现在主演讲台上方的大屏幕上。其实,他并没有出现在会场。

王小川介绍说,搜狗使用姚雪松1.5小时的音视频数据,结合语音,图像等多模态信息进行联合建模训练,输入一段RISE大会的文字稿,就实现了这次与真人无异的播报效果。

虚拟主播在技术上的实现意味着AI具有了更丰富的表达方式,从文字表达走向音视频的富媒体表达。

虚拟主播技术的应用场景可以非常广泛。首先,作为具备视频内容生产能力的技术,该技术可以运用在诸如新闻,娱乐等场景中,自动实时快捷地生成富媒体内容。

其次,虚拟主播技术还能根据用户上传的单张人物图片(明星、朋友、家人等)实时生成该人物的虚拟主播形象,用户可以与其面对面交流。还可以应用于各种智能软硬件,如果用于带屏幕的智能音箱,用户就可以从单纯与声音的交互变成与一个逼真的虚拟人物的交互。

未来,虚拟主播如果具备更完善的交互能力,就能用于教育、医疗、客服等多个行业,节约大量的人力成本。

AI产业,谁会赢?

搜狗因“国民输入法”而为中国人所熟知,从不烧钱,在追风口的互联网圈坚持自己的道路,何以突然之间,就能够在人工智能这个选手密集的赛道祭出此等大杀器呢?

从王小川在大会上的主题演讲《人工智能下一个应用突破》可一窥端倪。

 

在演讲中他提到,语言是人类与动物最大的不同,掌握语言就掌握了灵魂;技术层面,语言是人工智能皇冠上的明珠。

无论是百箱大战中Amazon Echo、Google Home等多款围绕着语音交互打造的智能音箱,还是会打电话订餐的GoogleDuplex、会辩论的IBM Projector Debater,都聚焦于让机器拥有“语言”这颗明珠。

搜狗因其对输入法,对搜索持续不断地更新升级,而在语言领域积累颇深。搜狗输入法是中国最大的语音输入法,目前语音识别准确率已超98%;日均语音输入调用次数峰值达4亿次;支持外文多语种和中文方言识别;智能断句、标点预测、识别结果顺滑等功能也领先于业界。语音合成支持多种音色选择,通过少量数据即可生成说话者自己的合成音色,还可实现说话人风格的迁移。

AI当下最需要的也是“力出一孔”,即“利出一孔”。利出一孔,最早出于春秋时期的《管子》。管仲在《管子· 国蓄第七十三》中提到“利出于一孔者,其国无敌;出二孔者,其兵不诎;出三孔者,不可以举兵;出四孔者,其国必亡”。

AI是个火爆的大世界,它涉及的技术五花八门,深度学习、大数据、语音、视觉、知识图谱等等;它的应用场景包罗万象,娱乐、媒体、营销、零售、交通、工业、机器人等等,可以说无边无际,有资源进行广撒网的玩家是少数。随着BAT等公司开启AI布局,他们似乎更喜欢“跑马圈地”,占领尽可能多的AI应用场景,百度提出All in AI(集中一切力量做AI),腾讯提出“Make AI Everywhere”(让AI无处不在),阿里强调“产业AI”。 搜狗的AI战略不做大而全,而是围绕一个战略制高点做精做细,聚焦到语言相关的人工智能,从单点打入整个AI行业,这让它的AI战略与众不同。

整个AI产业也需要这样的理念。AI技术五花八门,但首要问题,还是要帮助机器建立感知与认知能力,真正理解这个世界并自由交流。如何做到?两个事情缺一不可,交互和知识,当机器同时拥有自然交互能力和知识计算能力,才能感知、认知这个世界,与人类智能交流,并帮助解决问题。

让机器融入人类世界很重要的一步,就是需要机器理解人们通过自然语言的发号施令,理解大量的文本,理解大量的语音,理解大量的图像,这就像解决触摸屏对于智能手机的意义一样,是不可绕过的关键一步。而语言又承载了人类的知识与思考。当机器进入到知识计算层次后,就能通过语言集合人类智慧,超越人的认知,回答、解决人类在知识世界的各种问题。

搜狗聚焦到语言,而不是五花八门的AI场景,也是希望将语言当成一个抓手,来撬动整个AI产业,实现力出一孔。它一方面在交互上布局,从语音识别、语音合成、图像识别、图像合成衍生研发出极具特色的情感迁移、唇语识别、虚拟主播等技术,都在解决交互问题;另一方面在知识计算上布局,比如做问答、对话、翻译。

搜狗的AI战略,让我想起了智能家居的发展。最一开始,智能家居涉及到智能电视、智能家电、智能门锁、智能路由器等等,不过在智能家居市场最先取得突破的却是智能音箱这个小玩意儿,根源是选择了从音箱上搭载更智能的语音交互助理来进行突破。同样的,AI赛道中什么都做,往往很难突破,如果有所聚焦,则能单点突破,将自己的AI牢牢嵌入用户的心智,成功夺取入口,以点带面。语言对于AI市场而言,就有点像智能音箱对于智能家居的价值。

聚焦语言给搜狗带来什么?

不论是输入法、搜索引擎、翻译,搜狗的核心业务都与语言密不可分。如果说搜索和输入法是搜狗的起家业务,为搜狗积累了大量的语言数据,语言AI技术则是搜狗未来的基石,承担为搜狗开疆拓土的使命。

聚焦语言相关AI技术的发展,搜狗在自然交互和知识计算两个领域上不断强化优势,将长板不断筑高,再在语言强相关的核心应用领域投入所有精力。集中优势兵力、各个击破,也是更适合搜狗这个体量玩家的策略。

尤其是在翻译领域的技术突破与实用化进展,不仅让搜狗领跑行业,也带给了搜狗更多的信心。早在2016年的乌镇世界互联网大会上,搜狗发布了全球第一个商用神经网络机器翻译系统,让机器同传成为重大峰会活动标配。跨语言搜索引擎和输入法翻译功能更是让用户得以打破语言壁垒,实现跨语言表达与获取信息。今年上半年,搜狗发布的旅行翻译宝和录音翻译笔则以行业黑马的姿态杀入市场。搜狗相关负责人提到未来也将考虑以翻译为入口,扎入旅游场景做深度服务。

相信看到这里,你对搜狗为什么聚焦到语言这个独特的领域,有了清晰的答案。AI已成为互联网巨头的必争之地,像BAT这样的广撒网是一条路,像搜狗这样聚焦到一个细分领域,实现单点突破,同样是一条路。谁会走得更快,谁会走得更远?时间会给出答案,我们乐见其成。

(编辑:网销中国)

网友评论
推荐文章