加入收藏 | 设为首页 | 会员中心 | 我要投稿 温州站长网 (https://www.0577zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

达摩院重修“巴别塔”

发布时间:2019-03-04 17:44:49 所属栏目:教程 来源:钛媒体APP
导读:图片来源@视觉中国 钛媒体注:本文来自于公众号浅黑科技(qianheikeji),作者:史中,钛媒体经授权转载。 刘慈欣在小说《乡村教师》里,有这么一段描述: 一个文明程度极高的外星文明观察地球,发出了惊叹:这种没有记忆遗传的生物,相互间用薄膜器官震动

比如2017年,天猫精灵发布。它从一开始就搭载了一个神奇的功能:声纹支付。你用自己的声音,就可以让天猫精灵帮你充话费买东西,而天猫精灵听到别人的声音,就会拒绝付款。从这项技术衍生开去,天猫精灵还可以识别家里不同人的声音,从而为他们推荐个性的内容。

站在历史的时间轴上,直到这一时点,达摩院才真正成立。

实际上,达摩院成立,并没有改变语音实验室的研究内容。我问鄢志杰,那你感觉到最大的变化是什么?

“决心。”他说。“阿里巴巴要做自主研发核心技术的决心。”

达摩院重修“巴别塔”

达摩院成立

比鄢志杰早半年加入 iDST 的司罗,是一位标准的学界大咖。从打游戏开始接触计算机,一直做到了普渡大学终身教授。(下次家长再阻止你打游戏,你就说我的偶像是司罗。)

在美国学校“吃了八年粉笔末”之后,司罗决定回国加入阿里巴巴。他的理由是:在学校里研究一个新的算法,有20个学生来做评测就已经算是豪华阵容了。而在阿里巴巴研究一个新的算法,会有上千万真实世界的体验和反馈。

于是,他成为了 iDST 语言技术实验室的领头人。

达摩院重修“巴别塔”

司罗

“学以致用”是司罗的信条,这恰好也和阿里巴巴的实用主义精神相契合。司罗团队用了五年时间,搭建起两座技术金字塔:

第一座技术金字塔,名叫自然语言处理平台(NLP),有“帮你选择合适内裤”的功效。

简单来说,这套系统有三大功能:把任何一段话拆分字句,提取其中的信息,理解其中的意义。

举几个实际的例子:

你在淘宝搜索一个关键词:“男士内裤骚粉”,NLP 系统就会把它拆分为“男士+内裤+骚粉”,从而找到适合你的商品,这就叫电商分词。

你在淘宝买过骚粉内裤,之后它就会一直给你推荐各种彩色内裤,这就是大名鼎鼎的淘宝推荐系统。

你在购买记录里评价购买的内裤又舒适又美观,于是淘宝就会知道这是个正面评价,然后把这个商品推荐给更多的买家,这就是情感分析系统的功劳。

如果你不知道哪家内裤的性能最好,可以询问阿里小蜜,人工智能就会查看很多商品介绍,然后给你推荐最适合的那款,这就是信息提取功能。

司罗说,仅仅 NLP 基础技术平台,每天在阿里内部就会被四百多个部门调用两万亿次。可见它的职责之重。

第二座技术金字塔,名叫机器翻译平台,有“帮土耳其人买中国辣条”的功能。

翻译的用途当然很多,但是在阿里巴巴内部,跨境电商是“最有商业价值”的战场。

如果一个土耳其用户,想要在电商上购买中国的零食,需要和卖家聊天。但他是不可能看懂中文的。对于这种对话的翻译,不是简单地说明白就行,还要特别讲究“信达雅”。

比如卖家说:

我家的辣条,软滑香糯,入口即化,唇齿留香,余音绕梁,三月不识肉味。买回去你撕开包装,隔壁小孩直接馋哭了。

要把这话翻译成土耳其语,那得把人工智能累哭了。但司罗和团队的技术正在把它变成现实。

话说回来,谁让你叫“达摩院”,达摩院可是禅宗初祖菩提达摩面壁开悟的地方。如果不做这种挑战人类极限的事情,那就别叫达摩院,干脆叫幼稚园得了。。。

达摩院重修“巴别塔”

阿里巴巴的同事帮我找了一张“英俄互译”的截图

(4)面壁者

走得更远的人,背包也更重。

2017年10月10日,你搜索“达摩院”,结果是少林寺。2017年10月11日,你搜索“达摩院”,结果是阿里巴巴。一瞬间,世界开始用新的标准审视达摩院的科学家。

成为达摩院诸神一员,意味着每人面前都有两堵墙。一堵墙是技术极限,另一堵墙是商业实践。

在鄢志杰眼里,技术是一只高速飞行的蝙蝠,而商业就是反馈和矫正方向的超声波雷达。他举了两个例子:

2018年,我们为上海地铁售票机研发的语音购票系统,你只需要说出想去哪儿,售票机就自动给你推荐最近的地铁站。看上去很简单,但放到真实的商业环境里,你会发现很多意想不到的困难。

地铁站里面的售票机是并排放置的,每个人说话都会干扰到临近的售货机。你不可能让地铁站把售票机距离拉大,这件事只能靠算法来解决。

再比如,我们用技术帮助法庭书记员语音撰写庭审记录。但是法庭的现场情况比较特别,原告有个麦克风,身后还有扩音喇叭。被告的声音从喇叭里出来,又会串进原告的麦克风。这同样需要精巧的算法来解决。

下图就是上海地铁购票机,亲测还挺好用的。

达摩院重修“巴别塔”

你可能没想到,达摩院的大神们用顶尖的人工智能技术,最后解决的却是实际应用中鸡零狗碎的小问题。

通常的研究者,经常会把一件事情抽象,再抽象。抽象到终于能解了,于是认为自己解决了问题。但他们往往忽略,抽象之后的逻辑和真实世界已经有很大的差距了。一个抽象中的算法,要解决最原初的实际问题,需要反过来走很多的路。

金榕一语概括了技术和商业的相爱相杀。

其实跟着达摩院大神们的节奏,我们已经窥探到了“自然语言处理”中科学钻探的最深处。

1、如何像人一样“听清”。

传统意义上的语音识别,人工智能只有一个耳朵。但在一个真实的公共环境中,只靠一个耳朵是远远不够的。

而鄢志杰想在这个耳朵旁边再安装上眼睛。正如人一样,我感觉到谁在对我说话,一定会把脸转向他,从而让耳朵获得最有针对性的声音。

正是基于这个“多模态语音交互”的理念,他才为上海地铁购票机装上了摄像头,配备了可以定向收声定向降噪的一组麦克风。这一套系统可以感知它身处什么环境、谁在和我说话,在说什么,等等一系列精准地信息。

鄢志杰把它用在了咖啡点餐机上,在真实的嘈杂环境中,机器用49秒时间点了34杯咖啡,作为对比,人完成这些事情却用了2分37秒。

2、如何像人一样“说清”。

机器模拟人声,这就是非常著名的技术 TTS。

TTS 是机器人通过图灵测试的关键一环。哪怕机器人对你所有的问题都对答如流,但是声音被你识破了,它还是会在图灵测试中失败。

而 TTS 是个深坑。各种最前沿的技术方向正在混战,谷歌、亚马逊,还有国内的 BAT 都在这篇混战的战场中。

鄢志杰告诉我,通过最新的 Knowledge Aware TTS,一个机器模拟声和原声相比较,已经从80-90%的相似度,提高到了95%的相似度。这意味着,你需要特别仔细地判断,才能知道电话那头究竟是人还是机。

在阿里云上,有一个小 Demo,你无论输入什么文字,萌妹子都能没羞没臊地给你读出来,而你丝毫感觉不出这是机器声。你可以去试试。

3、如何像人一样“思考”。

在最开始中哥曾经提到,人在大脑里会“解压”语音,解压的过程中绝对性地依赖自己对于世界的“知识图谱”。

要想让机器在大脑里像人一样理解人话,必须要对这个世界进行非常精准的建模,形成像百科全书一样的知识图谱。

这条长征路,达摩院已经迈出了第一步。

(编辑:温州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读