解密智能音箱行业 独家专访灵隆科技CEO魏强
1、我们推出的这个功能更多还是从用户的角度来考虑:想要产品做得好,首先要令用户喜欢,这是能卖出去产品的最根本条件。而用户也刚好有这个需求,他们觉得只叫叮咚叮咚难免会有些枯燥,因此我们便通过定制唤醒词进行改进。 2、我们在和行业里其他合作伙伴在进行深度合作,比如传统的营销厂家,每一个厂家都有一些品牌方面的需求,他们希望通过定制唤醒词让双方合作的产品更具有他们自己品牌的特性。 3、我们把自定义唤醒词功能推出后,也有利于更多合作品牌加入智能音箱的行业中,去推出更多的智能音箱产品,以满足不同层次不同的场景需求。 可调节TTS发音人直接模拟调用完全是可行的,我们也在正在做这方面的研发。目前如果一个人能有20分钟的声音提交到我们后台,我们就能把它的音色、发音特点提取出来,研究这个人的发音。 同时,用户也有这方面需求,我昨天还看到一篇文章:美国的一个专门做语音技术的人,他利用父亲生前留下来的两万多句话,把中间的音色提取出来,然后开发了一个的软件交互系统,这样他就能让没有见过爷爷的小孩,能够与这位“假爷爷”对话,了解爷爷生前的一些事情。 之前,讯飞便已经可以模仿奥巴马的声音:奥巴马说的是英文,我们可以把它的音色提取出来,然后通过中文进行播放。这对用户来说,无论从情感方面、个性化定制,还是娱乐方面都非常有吸引力。 三、新一代iPhone主推Face ID功能,换句话说就是3D人脸识别技术,目前遭到质疑的声音还是很大的,但整体却相对成熟;而叮咚2代则加入了声纹识别功能,但是整体的声纹识别市场还是处于初级阶段,那么作为继指纹之后未来的主流生物识别技术,您觉得未来声纹识别普及需要攻克的难点有哪些?您是如何看待声纹识别的前景的? 苹果推出的人脸识别是传统2D人脸识别的升级版本——3D人脸识别技术,目前2D技术已经比较成熟,但是却会遇到一些问题,比如利用照片能骗过摄像头,而加入3D之后人脸识别技术安全性便大幅提高,目前人脸识别在一些场景(登陆、刷卡等)都可以使用。而声纹是近几年才刚刚起步的技术,全球范围内的成熟度还是没有达到足够高度,特别是基于远场(距离比较远的状态),目前近场的识别率能达到90%。 未来声纹识别行业需要在以下两方面进行深造。 1、依赖声纹技术的不断发展,针对远场声音收集、并对算法不断提升,不断提高准确率。 2、在现有技术条件下,重新定义使用场景。我们一直不建议单纯地拿声纹识别进行支付等对安全性要求比较高的行业操作,这样带来的风险特别大,如此做法是对用户不负责任的态度。因此我们会将声纹识别应用到个性化新闻定制、歌曲推荐等使用场景,特别是针对家庭环境下:家庭中的人音色差别相对较大,能做到相对比较高的识别率,在这种情况下可以进行一些个性化推荐。 四、语音、语义、情感,是人工智能语音交互的三个阶段,实现的难度也是逐级递增,那么您觉得目前语音交互的处于哪个阶段?您如何看待目前阶段的语音交互技术的?想要实现万物互联,语音交互技术需要加强哪些方面? 语音的发展可以说在技术上已经达到了可以使用、产品化的程度,当然还有提升空间,目前普遍的识别率为95%到98%之间。而语义则需要基于后台的大量数据,在一个领域里如果有足够的相关数据进行支持,我们可以达到一定高的准确率。但是如果把领域放开,不加限制,就需要特别庞大的数据来支撑,这在全世界范围内还没有解决,处于发展过程中。 而情感还基本处于概念讨论阶段,大家还没有找到正确的路、正确的理论支撑,到底如何去做如今仍没有定论。比如通过声调、声强等特点来进行简单判断,但是这远没有达到人和人之间交互所需要的情感理解。同时,光凭语音交互并不能完全表达一个人的交互情感,我们还要结合其他的信息,比如表情、上下文,这和语义是缠绕在一起的。因此目前情感还是属于一个完全开放的阶段。 在推动万物互联、智慧家庭普及的道路上,我们主要需要在语义方面进行提升。目前语音控制家电相对来说比较简单,指令都是比较简洁的;而语义方面,你需要应对不同的说法,以控制空调为例,有人会说“给我打开空调”,有人会说“把空调给我打开”,还有人甚至说“直接把冷风机打开”,各式各样的说法都需要满足,这便需要语义方面能做到各种各样的支持。 其次便是需要在应用环境或者应用场景下进行分类,因为不同的智能家居设备,使用场景是不一样的,比如空调工作时会有进风出风的噪音,洗衣机冰箱又有不同的噪音,这都对语音(远场)识别有各方面的挑战,因此需要我们的语音技术在不同的应用场景下能够具有惯性,或者针对某一个具体的场景进行单独优化。我们之前也测试过不同厂家空调(变频或不变频)发出的噪声,它们都是不一样的,这对语音识别影响很大。 五、目前科大讯飞的语音识别率能达到95%,但是这个识别率还是有局限性的,我们在实际使用科大讯飞的一些应用中,其实识别率远没有这么高;同时方言、环境等问题也是影响识别率的重要因素,您是如何看待目前语音识别“不太准”的这个现状的? 1、目前讯飞语音识别在标准普通话环境下,达到95%甚至更高的准确率是完全没有问题的,但是实际上用户在使用过程时会遇到各种各样的场景,比如说话时吞字吐字、方言、噪声等,这些都给语音识别带来了挑战,这些方面会直接影响最终识别率,这是环境条件限制; 2、用户的语言习惯都是不一样的,比如叮咚音箱是需要联网、唤醒之后才能进行对话,这种交互方式用户并不太熟悉,目前有两种明显的用户使用对比:第一种就是叮咚叮咚,我想干什么,很快速地连续一气说下去;另外一种用户则是叮咚叮咚,犹豫半天才说。设备到底要以什么样的节奏来交互,实际上并没有一个非常准确的认识。 这也是我最初说的,智能音箱在推向市场的过程中,一方面产品本身要根据用户的使用习惯不停迭代,另一方面也需要我们去引导用户告诉他们这种产品基于目前技术水平阶段,如何使用才能达到最好的体验,这两方面都需要努力的。因此不能单凭一味地追求技术,而是需要产品和用户之间的不断磨合,包括算法层面和产品设计层面。 写在最后: (编辑:温州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |