你掌握的AI技能，可能并没有那么值钱

发布时间：2019-03-11 19:30:46 所属栏目：教程来源：36氪

导读：编者按：AI潮已经席卷整个世界，各种AI初创公司遍地开花，但不是所有都能获得成功本文作者Ric Szopa是 invoo. vc 的首席技术官。此前, Ric是MicroscopeIT 公司的首席技术官, 该公司是一家专门从事计算机视觉、机器人和显微镜图像处理的软件公司。他曾在谷

编者按：AI潮已经席卷整个世界，各种AI初创公司遍地开花，但不是所有都能获得成功本文作者Ric Szopa是 invoo. vc 的首席技术官。此前, Ric是MicroscopeIT 公司的首席技术官, 该公司是一家专门从事计算机视觉、机器人和显微镜图像处理的软件公司。他曾在谷歌 (google) 从事 youtube 数据库基础设施工作。他认为，对于以AI为商业核心的企业而言，发展的道路上，有几个很关键的“事故高发地”。本文编译自KDnuggets的原题为“Your AI skills are worth less than you think”的文章。

AI热已经热了好一阵子了。机器学习专家的工资开得很高，投资者面对AI企业，也很乐意用心倾听，打开心门，然后打开支票簿。确实，科技革新能带来翻天覆地的变化，每一代人都有这样的机遇，而AI就是我们这一代的大机遇。技术带来的改变是无法逆转的，它会对我们的生活有深远的影响。

但是，这也不是说AI企业要成功就易如反掌。我认为，以AI为商业核心的企业而言，发展的道路上，有几个很关键的“事故高发地”。

你掌握的AI技能，可能并没有那么值钱

我和儿子的照片，图片经过 Artistic Style Transfer处理。这个技术点燃了我对深度学习的热情。

你的AI技能在不断贬值

2015年，我还在谷歌上班的时候，开始摆弄 DistBelief（后来改名叫TensorFlow），当时它还很差劲，写起来很费劲，主要的抽象过程也和我想的不太一样。想让它在谷歌的开发环境之外独立工作，简直是黄粱美梦。

到了2016年年底，我在弄一个通过组织病理学图像来发现乳腺癌的POC测试。我的想法是利用迁移学习，拿癌症的数据来训练谷歌最好的图像分类架构Inception。权重就用谷歌提供的训前权重，光换顶层布线层的数据。用TensorFlow不断实验、试错之后，我终于知道怎么操控不同的层，几乎就成功了。这个过程需要很大的耐心，还要读TensorFlow的源，但是至少我不用担心依赖的问题，因为TensorFlow好心提供了docker镜像。

2018年年初，对于实习生做的第一个项目来说，上述的项目不够复杂。有了Keras（TensorFlow基础上的框架），不需要对项目有什么深层的了解，用Python写几行代码就完事了。不过超参调优还是有点麻烦。如果已经有了深度学习模型，就有好几个参数可以控制，比如多少个层，每层的量等等。但最优参数设置也不简单。有些直觉式算法（比如网格搜索）不是很好用。于是我们就要不停地做实验，与其说这是科学，到更像是一门艺术。

在我写下本文的时候（2019年年初），谷歌和亚马逊已经提供自动模型调试的服务 (Cloud AutoML, SageMaker), 微软也正有此意，计划在筹备中了。我预计，模型微调很快就不需要人工操作了。

我希望读者能看到事情发展的趋势：原先难做的事情变简单了，知识水平的门槛降低，让懂得不多的用户也可以实现更多。过去的工程壮举，在今天看来也没那么了不起，而我们不能指望未来还不如现在。这其实是好事，是进步的表现。我们应该把功劳记在谷歌这样的公司头上，他们大手笔投资之后，将成果分享给世人。但是他们这么做，也是有两重原因的。

你掌握的AI技能，可能并没有那么值钱

你被商品化之后，你的办公室就是这样。

首先，谷歌的真正商品是云架构，而上述举动是为了将其互补品商品化。在经济学上，如果人们倾向于同时购买互为补充的两种商品，比如汽油和汽车、牛奶和麦片、培根和鸡蛋。如果互补商品组合其中之一价格降低，另一商品的需求就会上涨。而云架构的互补商品就是云端的软件。而且AI相关的项目一般需要很多计算资源。这么以来，将开发的成本降到最低也就十分合理了。

其次，谷歌之所以对AI那么热心，是因为他们在这方面相对于亚马逊和微软有明显的优势。谷歌的起步更早，让深度学习的概念热门起来的也是谷歌。他们也没少招兵买马，招揽了不少人才。他们在开发AI产品上经验更丰富，所以开发相关工具和服务方面也更有优势。

虽然技术进步让人兴奋，但是对于在AI技能方面做出很多投入的企业和个人来说，可不是什么好消息。现在，培养出有AI技能、能胜任工作的机器学习工程师确实能带来很多好处。其成本也是很大的，工程师需要花大量的时间阅读论文，还要有坚实的数学基础。但是，工具变得越好越好用，情况就不一样了。这份工作就会转向阅读教程，而不是看论文了。如果你不快点找到自己的优势，就会有一帮实习生带着数据库来抢粮了，尤其是他们的数据质量可能更高呢...这也引出了我要提的第二点。

数据比高大上的AI架构更重要

假如有两个AI企业创始人，小红和小明，他们的企业创业资金差不多，在同一个市场中竞争。小红把钱投资在最好的工程师上，聘请在AI研究方面成绩不错的博士。而小明请的工程师水平还不错，能胜任工作，她（小明也可以是女性！）把钱投资在更好的数据上。你会把宝押在谁身上？

我会把宝押在小明身上。机器学习的本质救灾与将信息从数据集中提取出来，然后按权重处理。好的模型在处理的过程中效率（就时间和整体质量而言）会更高，但是在模型差不多的前提下（也就是说，模型真的能得出有用的结果），数据的质量会比好的架构更重要。

为了说明这一点，我们来做个快速粗略的小测试。我创造了两个卷积网络，一个“好”，一个“差”。较优模型最后的全连接层有128个神经元，而较差模型凑合着用了64个。我用 MNIST数据集的子集训练这两个模型，然后用测试集得出两个模型的准确度，与他们受训的样本数量对比。

你掌握的AI技能，可能并没有那么值钱

蓝色的是较优模型，绿色是较差模型

数据集的规模有明显的积极作用（至少在模型开始过度拟合和准确率平台之前）。较优模型用蓝色表明，显然比绿色标明的较差模型表现更好。但是，我想之处的是，在如果较差模型的训练样本数达到4万时候，就比用3万样本训练的较优模型更优秀了！

在我闹着玩举的例子里，我们面对的是一个相对简单的问题，我们的数据集也比较全面。但是现实生活中就没有这样的好事了，问题往往复杂得多。很多情况下，扩大数据集也得不到这么巨大的效果反转。

而且，和小红的工程师竞争的不是小明手下的人。由于AI社区的开放文化，以及他们对知识共享的执着，工程师的竞争对象是科技企业巨头和世界各地科研机构里的研究人员。如果你的目标是解决问题，而不是为科学做贡献的话，那么使用现有文献里表现最好的架构，用自己的数据来训练它，这是在实战中无数次得到验证的方法。如果眼下没有好的解决方案，常常就得等几个月，等到有人提出解决方案来。而且，你还可以征集解决方案，比如，利用Kaggle大数据竞赛平台，将数据、问题描述、期望的指标发布到Kaggle上，以竞赛的形式向广大的数据科学家征集解决方案，解决自己具体的问题。

好的工程技能当然是重要的，但是如果你从事的是AI行业，数据是可以带来相对优势的。不过，最关键的问题在于你能不能守住自己的优势。

在AI行业，保持竞争优势很难。

小明的数据集质量比较好，所以能和小红竞争，企业表现也不错。她的产品投入市场之后，市场份额不断增加。她现在还能请水平更高一点的工程师，因为企业在市场上的口碑和名气也不错。

（编辑：温州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/2

尾页

原版Ghost xp iso镜像	萝卜家园ghostxpsp3安
xp 激活系统方法	联想笔记本电脑xp系统