演讲实录:百度大规模深度学习应用实践和开源AI框架PaddlePaddle
下面我们可以看一下,回想一下我前面讲过的内容,可以看到CPU在实际业务场景当中现在的作用还是非常重要的。一方面对很多的场景而言,CPU的性价比是非常好的,另外特别是对我们刚才讲到的一些超大规模数据特征的训练,CPU集群的优势还是比较明显,当然很重要的一方面是英特尔也是更加重视深度学习这个方向,英特尔的芯片也是在变得越来越强大,越来越适配深度学习。 下面我会简单展示一下英特尔在Paddle上工作的部分成果。在性能优化这一块,我们进行了广泛的配合工作,英特尔同事进行了深入的支持,我们在图像、文本好多任务上从训练到推理性能都有了很大的提升,相比我们之前线上自己手写的系统,性能都有了很好的改进。比较重要的是MKLDNN底层库,它的优化效果确实比较突出,除了在最新的像类似6148芯片上加速比确实非常高之外,在一些更传统的芯片上也有提升的作用。 我们和英特尔在低树脂精度计算方面的工作,英特尔下一代指令集合VNNI提供强大的INT8乘加运算的效率,我们也和英特尔基于Paddle之上对一些模型进行尝试的验证工作,这也体现了英特尔对深度学习计算任务的重视,因为对于深度学习而言,它确实有很多的特色,除了我们经常感受到的它的向量矩阵运算之外,其实对于深度学习而言,它并不是追求一个精确的数值计算的结果,在某些情况下,低精度的运算在不损失效果的前提下,它的加速效果是非常的可观。英特尔这方面的工作我们也是非常期待。 还有一个重要的合作就是nGraph,nGraph可以认为是英特尔针对深度学习做的中间表示或者编译器,无缝的衔接不同的硬件后端和上层的框架,Paddle和nGraph的对接非常简洁,通过nGraph Bridge,可以把拍到的一些OP转化成nGraph后台更高效的计算。英特尔的工程师也是基于PaddlePaddle之上做了初步的实验,我们可以看到在ResNet-50上的效果的提升比较明显,英特尔最新的PR也被集成到PaddlePaddle上。 构建大规模分布式深度学习集群 除了单机之外,对我们的业务而言,大规模分布式并行式是非常重要的。我们构建了一个大规模分布式深度学习集群,从最底层的硬件到资源的管理调度都做了大量的工作,有数万台机器在这样的环境下可以提供内部各个业务的训练的支持。当然我们也会通过公有云结合PaddlePaddle对外来提供更多的服务。 对于Paddle框架本身而言,我们在并行上做了很多特色工作,除了同步、异构并行之外,我们特别对稀疏参数的支持进行优化,我们支持千亿级别稀疏特征,在百余节点上的并行训练。今天主要是讲这些,希望大家能够多多试用、支持PaddlePaddle,可以给PaddlePaddle做一些贡献,让我们共建PaddlePaddle,打造更好的深度学习框架。谢谢大家! 关于PaddlePaddle的更多信息,可前往http://www.paddlepaddle.org/zh了解。 (编辑:温州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |