谈谈未来云计算厂商的无监督-大模型训练集群的工业化普惠AI变现模式－

发布时间：2022-10-13 00:01:45 所属栏目：云计算来源：转载

导读： OpenAI最近发布的120亿参数的DALL·E+CLIP成了明星，它是GPT-3的多模态版本，接受了文本到图像转换的训练；同时也是比1700亿参数的GPT-3温柔：）
从数据驱动AI的趋势展开来讲，当下提供数据

OpenAI最近发布的120亿参数的DALL·E+CLIP成了明星，它是GPT-3的多模态版本，接受了文本到图像转换的训练；同时也是比1700亿参数的GPT-3温柔：）

从数据驱动AI的趋势展开来讲，当下提供数据集和标注服务公司有不少，云端有云端的算法，线下有线下的帮派，但不外乎都是需要“成千上万名社会标记员+算法协同调参”的方式；只是随着AI应用场景的发展，从事“数据集-人工标注-前置调参”的团队越加重要，尤其对于自动驾驶这样需要快速发现bias、快速修正并收敛模型的“持续计算型”应用。当然还有AutoML的联想，当一个领域已收集、建立有足够大而全面的基准数据和pretrained模型时（预训练模型时），基本上该领域手工调参的价值就相对较低了；AutoML领域如今还没有通用的预训练模型或者横扫一切的预测模型，所以手调的空间还很大。

但并非海量数据中的每一条都需要标注的，有些数据集只要规模足够，那么样本间的彼此依存关系和连接规律是可以被轻易发现的，这些预示一种趋势：来自云计算大厂的全领域大模型训练能力和云边协同模式，由此演变的AI寡头时代来临，思维发散一下：以后，拥有大规模算力集群的云计算大厂就要自己构建无标签的大规模预训练模型了，随后将模型release给下游的应用场景公司/算法开发者使用，后者再通过带有domain-specific标签的自有的小样本模型子集再跑一遍微调和抽取，做到轻量化，再交付予应用场景中，以较低的算力/模型/参数开销做逼近式的、快速的循环迭代，不断逼近场景可用的准确结果，如此往复，就自然演进为上下游绑定的云边协同生态了…；同时，这也意味着，有监督学习的红利已经基本完结了，基本上业界下一代人工智能训练的形态会是：大规模上游预训练+小规模下游微调的思路。NLP基本走通了这个思路（虽然如今GPT-3被批评只有记忆没有常识），但仍然存在由多义词导致的结果多歧义的诟病；CV也会跟随这个思路，且不存在上述NLP的问题，由此会改变CV的产业格局和开发模式，在这种开发模式下，而对于场景应用的开发者而言，适应算法并不难，要取舍的是适应这种生态。

要知道，当下的很多AI团队仍旧依赖通过算法变现的传统商业模式，但场景算法开发并不难，小型团队即可完成任务，难点在于让算法复用于、普惠于其他更多的场景；所以需要工业化的AI开发，一个算子/算法开发完成，可以泛化/通用到尽可能多的场景，让更多的使用者受益并为之消费。

而获得更好的泛化能力，所依赖的因素至少包括大模型。比如人类神经元有极强的泛化能力，就是源自人类大脑在繁衍过程中不断学习和接受的海量数据，虽不如计算机存储空间，但这些知识都是千万年基因遗传所沉淀的有效知识。因此，普惠AI需要尽可能多的数据样本，且模型需要足够强大，强大到能够从海量的无标签数据中捕捉出事物规律，捕捉个体样本彼此之间的联系，才能形成有效知识，并将所学知识应用到更多场景之中。当然，大数据、大模型就意味着大算力支撑。另外，就是参数量是重要指标，但不是绝对衡量指标，人脑神经元数量约是1千亿级别，约有100万亿参数量（或者称突触），远高于GPT-3 1750亿参数量的1000倍，但GPT-3裸模型依旧不如大脑的训练和推理灵活，因此当下的演进是，往往先训练一个大模型，再把它蒸馏/压缩到更小（甚至压缩1000倍），进而提炼小模型发布给下游场景适用（但不是一上来就训练一个小模型）。

尤其对于小样本和长尾分布的场景，这是两个困扰很多AI用户的问题，全领域大模型更适用。通过大数据样本+大规模预训练模型，即使这些海量数据没有标签，也有益于捕捉样本彼此之间的关系，比如你看了太多猫的图片，但突然某天看到一张老虎图片，进而可以关联老虎的头、腿与猫的关系和相较差异，这样一来，甚至不需要看大量老虎图片去训练，便可以藉此解决小样本和长尾分布的问题。回顾工业场景的例子，假设用户提供了20万张图片数据集，且告知其中的缺陷样本仅有200张，即1/1000，但是这200张缺陷样本是如何找出的才是关键；倘若通过云端大模型训练，虽然模型并未事先标注过图片，但它仍可以判断图片之间的关系，以及判断个体图片与其它图片的相较差异，首轮可能遴选出1000张缺陷假定，用户仅需针对这1000个类做小规模标注即可，但是这1000个缺陷假定也许并不覆盖真实的200张缺陷，假设仅覆盖160个，那么便需要第二轮再用已得到的160个缺陷样本再与大模型训练一次，再次迭代出的小模型，再次付诸小范围标注，不断迭代和逼近200张缺陷的准确结果。用户可以不断把自己的领域小样本结合大模型做训练，通过不断获得样本数据间的关系，不断的梯度迭代，逼近收敛为准确的小模型。从这一段描述的场景，也可以看到全领域大模型的实用性。

当然，大部分用户用不到最大的那个模型，也吃不下庞大的算力开销，往往会通过蒸馏/压缩等方法把模型变小，压缩后可以相差1000倍+，进而提炼小模型给下游场景适用；尤其比如部署到边缘，用于云边协同。但核心是，不能一上来就训练小模型，而是必须从大样本、大模型开始训练，再收敛和按需抽取为领域专精的小模型（例如基于prompt-based的调优），两者对于非标注缺陷的识别率差异是很大的；同时，这也更适用于诸如自动驾驶这种终身学习的场景，可以低开销的快速收敛一个刚刚发现的识别错误，这是云计算的优势，也是云创造普惠AI的优势，仅有云平台才具备大规模的、动态弹性分配的算力；尤其对于那些非均匀输送样本的领域用户，云算力会随着样本输送规模而弹性扩缩。

另外，当下CV和NLP面临的共同困难，都是标注信息的不完善，人工输入的标签已经不能更优指导学习过程，越来越多的基于DL的机器视觉已经到了足以质疑人工标签的程度，这些标签的价值也即将被榨干了；因为人工标注永远无法模拟人脑的推理过程，仅能提供一些间接、可量化的信息。

要知道无标签数据的增长是超线性（甚至指数级）的，但是受到人力成本约束，有标签的训练数据的增长只能是线性的。这也就意味着，随着时间的推移，将来的学习算法必然会面临无标签数据远多于有标签数据的情况。此时，利用海量无标签数据的最佳方式，就是把训练过程分为两段：先在上游任务中利用大量通用无标签数据对模型进行预训练，再在下游任务中利用少量有标签的领域内数据对模型进行微调。在NLP中这套思路已经趋于成熟，而CV领域也在跟随这一模式，但因为视觉的domain太多太杂，给实际应用带来不少麻烦。

但上述论点显然不是终极答案，关节还在于大厂自己的无/自监督学习水平，以及对于无标签学习后的评价指标是否足够准确和被认可。另外国内的大厂还不具备这样的能力，这样的能力是模型创新和奠基的能力，当下也主要就是Google和FB等（Google-Cloud-AutoML是初期形态）。

Hinton也曾说过【未来AI系统主要是无监督的；无监督学习可以从未标记、未分类的测试数据中提取知识——在学习共性和对共性是否存在做出反应的能力方面，无监督学习的能力几乎达到人类水平。比如在人类视觉皮层寻找启发：人类的视觉采用一种重建的方法来学习，事实证明，机器视觉系统中的重建技术增强了它们抵抗对抗性攻击的能力。然而，如果你采用一个拥有数十亿参数的系统，对某个目标函数执行随机梯度下降，它的效果会比你想象的好得多，规模越大，效果越好。这让一种说法变得更合理：即大脑计算某些目标函数的梯度，并根据梯度更新神经突触的强度。我们只需要弄清楚它是如何得到梯度的，以及目标函数是什么】。因此，无/自监督学习是未来的方向，但是现在还有很长的路要走。至少两个问题待解决：一是如何设计更好的评价指标；二是如何扩展到更大体量的训练数据上去。

如今，对于AI变现模式；BAT+HW、旷视、商汤等云计算和AI大厂都在构建全领域大模型，以及大算力中心；预示着AI寡头优势的形成。未来，工业化的普惠AI开发，行业上下游分工明确，大厂负责提供全领域大模型、大算力池以及全部开发配套和算法生态配套，小公司则无需做出端到端的实现，仅需要学习使用平台，并专注于应用场景发掘、小模型维护和算法生态即可；而对于中大型的政企用户，领域knowhow更强，领域样本也更多，同时对于成本要求也更为苛刻，常见需求是通过联邦学习的模式，联合分布于多地的模型共同训练和迭代，并最终发布于混合云或自建应用场景中，由于前期的AI后端作业受限于庞大的资源/算力开销，因此政企用户依然会选择云平台和AI大厂的资源，包括混合算力/存储/算法算子生态/调参工具链等资源。当下AI的研发成本实际比它创造的价值更高，AI的变现需要激活更多商业模式，同时活用方法，摒弃算法变现的旧传统和碎片化，驱动更多应用场景使用AI，让NN模型获得更优的泛化和普惠能力：让小公司专注于场景和产品，加快开发和产品发布效率，后端大模型训练需求则直接通过云平台供应全领域模型以及混合算力，并藉以云边协同快速落实于多种场景；AI的变现模式一定是依赖大量的边缘累积的广阔应用场景。

BTW -1：综上的结论和预期，继续利好GPU市场吧；这跟数据类型、神经网络类型或者graph类型相关了。未来GPU在AI主流workload中的用途还是做训练，做Inference任务太费电--用浮点结构是资源浪费；推理做INT8就足够了，难度不在于做大字节长度，反而做小才能省电，才更难；人类的判断能力才4位到顶了，绝大多数一层2位，所以冯诺依曼的总线结构给限制死了，位宽一旦定了，往低位做访问非常艰难。未来，无监督学习的数据量更大，维度更高云计算模型，GPU更接近需求，这也会间接导致另一种分化：训练和推理的需求差异越来越大了，譬如，你推理出一个千层网络结构，里面都是每层1-2位的，压缩效果不好的话，用浮点机器算会疯掉，x86就存在这种问题，之前8位最窄了，现在勉强加了4位指令集，但是不能收敛，遇到每层4位以下的结构还是会挂；Intel已经通过软件在x86和内置显核之间调度了，对外初代产品就是OneAPI的原型OpenVino…

BTW -2：虽然从数学来讲，AI的很多技术路线并不算科学突破，而是工程技术；因为理论上通过一个多项式函数即可无限的线性逼近那个光滑函数直至准确结果【泰勒公式】，至于逼近到什么程度才能拟合精确解则是未知，当下能够梯度迭代得出的仅是次优解/概率解/近似解；然而，如今很多的神经网络科学家已经认为这种线性逼近可以Stop了，因为所得共识是，AI计算模型就是应当需要不断训练+手工调参的工作才能得到最佳的次优解，因此它是工程技术，这才是一项工程的常态。

（编辑：温州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

云原生 PostgreSQL -	有效的云迁移策略为企
微软智能云Azure在华新	三种在云中利用开源的

谈谈未来云计算厂商的无监督-大模型训练集群的工业化普惠AI变现模式 －

谈谈未来云计算厂商的无监督-大模型训练集群的工业化普惠AI变现模式－