演讲实录:百度大规模深度学习应用实践和开源AI框架PaddlePaddle
导语:本文根据PaddlePaddle技术负责人、百度NLP技术委员会主席于佃海在今年英特尔人工智能大会上的演讲——《百度大规模深度学习应用实践和开源AI框架PaddlePaddle》整理而成。 PaddlePaddle技术负责人、百度NLP技术委员会主席于佃海 正文: 很高兴能有机会来介绍百度AI相关的工作,我们知道,此次AI浪潮主要由深度学习来推动的,深度学习的崛起也可以认为是神经网络技术的再次重新崛起。这一次不同的是,工业界在其中发挥了相当重要的作用。此外深度学习的成功和大数据,以及计算力密切相关。对于工业界而言,在数据资源和硬件资源方面都占有优势。 今天首先介绍一下百度在大规模深度学习应用方面的实践,之后会介绍一下我们的深度学习开源框架PaddlePaddle。 时至今日,深度学习已经不是一个新的话题。不过我们可以看到深度学习依然保持一个火爆的局面。对于老牌的机器学习神经网络的会议NIPS,这两年的门票销售相当火爆,今年在12分钟之内就销售完毕。深度学习也催生了一些新兴的会议,像ICLR,它的投稿数量也是指数级增长,今年又创最新高度。对于产业界,当然应用也非常火爆,我们也可以看到国内也是在制定相关的技术标准、人才的认证等等。 百度的AI之路 对于百度而言,其实一直走在深度学习研究和应用的前沿。百度拥抱机器学习并不算太晚,但从世界范围内对比来看也不算是特别早,对于深度学习而言,我们可以说百度在一开始就把握住了机遇,紧紧走在前沿。早在2012年百度就成功将深度学习DNN模型应用到语音识别、OCR任务中,随后的2013年在百度的核心业务凤巢和搜索排序中我们就上线了深度学习模型,这在业内都是第一次。在此之后,百度基本上可以说全面进入深度学习的阶段。在深度学习的框架开发、平台建设以及应用创新方面都走在行业前列,在企业内的应用具有很高实用性、很大规模化的特色。下面我会介绍一下百度几个典型场景的深度学习应用,会讲一下它的规模特点,也会提到我们最新的工作。 首先我们从深度学习最相关的语音、视觉和自然语言处理这些基础AI领域谈起。 ·语音 在语音方面,百度是最早在深度学习的领域取得突破的公司之一,从2012年开始我们持续在语音基础上有深度研究和突破,2016年,百度语音在深度学习上的工作被MIT科技评论评为当年十大技术突破之一。在今年初我们也发布了最新的语音识别系统Deep Peark2,在技术和效果上又实现了新的飞跃,大家可以用百度手机输入法来体验我们的语音输入效果。值得一提的是现在的语音识别深度学习训练的规模已经非常巨大,我们一般的训练都会使用十万小时级别以上的数据。TTS这一块,在合成领域我们也做了很多的工作,去年我们知道听说过百度语音合成的Deep Voice 今年我们又新发布了CLariNet。 ·视觉 对于视觉而言,大家可能对之前百度参加最强大脑人脸识别有一些印象,在当时的系统中,我们利用了200万的人脸数据来进行预训练,最近我们也是更多的将研究投入到三维人脸活体识别技术方向,其实百度也一直在构建一个超大规模的图像分类系统,到现在我们已经实现拥有10万类Tag、近亿图片的大规模识别系统,支持百度的广泛应用。除了刚才说的规模化的特点之外,我们在视觉的各个领域技术创新上做了很多工作,仅在2018年我们在参加的三项国际评测比赛任务中,都崭获桂冠,大家可以看到这些任务它的难度和规模都是非常大的。 ·自然语言处理 对于自然语言处理任务,其中最典型的可能要数机器翻译。很多人并不知道,全球第一个深度学习神经网络机器翻译系统的线上系统是百度首先在2015年发布的。这几年百度在翻译领域一直持续深耕,我们现在的训练系统所基于的语料也是相当大的规模,我们也针对不同的产品场景进行定制的优化,打造最好的翻译效果。我们最近有一个工作可以给大家介绍一下,类似于同声传译的同步翻译,它的意思是当原语言的输入还没有结束的时候,目标语言的翻译同步进行,这里面也有技术上的困难,因为不同语言之间的语序是有所差别的。 除了翻译之外,自然语言处理方向上我们也是在各个方向都有很多的技术创新,比如在开放领域对话和机器阅读理解方面。我们实际的自然语言处理系统的后台所依赖的数据比这些评测集合规模更大,可以看到我们开放领域的对话系统,我们实际用于训练的数据达到千万级别以上,上亿的语料库。基于机器阅读理解我们发布中文大规模阅读理解数据集合,规模达到150万的文档集合和30万的问题集合。 百度的深度学习应用场景 前面主要回顾一下在AI几个基础方向的深度学习应用,下面我会特别讲一下百度在几个重要产品线上深度学习的应用状况,和前面所说的几个基础方向上的深度学习应用还是有很大差别的。 ·语义匹配计算 对于搜索这个产品,我们现在最重要的深度学习应用场景是语义匹配计算。语义匹配计算是用深度学习来建模Query和网页的相关性,从2013年我们在业内首次上线深度学习模型之后,我们持续的优化创新到现在深度学习语义匹配的特征已经占到百度搜索相关性特征权重的一半以上,这非常好的打破了以前依赖关键词匹配的一些弊端。当然这个任务的训练规模也是非常巨大的,我们实际的训练语料是达到千亿级的规模,对于参数的规模也有上亿级别。我们对这个任务下的单个模型都是用了数十台CPU机器离线并行的训练,得到这样一个产出。 ·广告CTR预估 对于广告而言,最核心的应用场景是CTR预估,预测广告的点击率。它和搜索应用的差异在于,我们引入了更多的离散特征,包括一些组合特征,一些ID特征,使得它的记忆能力更强。在这样的设计之下,我们可以看到,它整个的参数规模达到了千亿级别,模型的大小达到TB的规模,使得普通的单机都无法加载,这对并行训练带来很大的挑战,我们在这类任务上都使用百亿级别以上的机器进行训练,我们的训练系统已经打造成了在线训练系统,实时数据进行输入,模型再实时更新。 ·信息流 对于信息流,这是百度一个相对较新的产品。在策略架构构建开始,我们就全流程的使用到深度学习技术,包含从语义召回和排序序列生成、评估等各个阶段,信息流的场景和搜索、广告有相通之处。相对于广告而言,我们在建模的时候更多的考虑了历史的这种序列点击信息,整体上也使得它的模型更加复杂,它的参数量也比我们广告上的模型更加庞大,对于它的训练难度也是进一步有了更大的挑战。我们现在也是采用这样一个在线上百台机器进行并行训练的方式进行深度学习的训练和预测。 (编辑:温州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |