帮百度AI干脏活累活的公司,都死了
第二,更庞大、更多样的数据规模。庞大在于数据量会更大,以传感器为例,随着传感器成本下降,并被大量应用,将有更多大量的数据需要被标记;更多样指的是更丰富的数据维度,在今年的CES展上,松下推出的智能家居解决方案,不仅仅通过电视上的摄像头观测人脸的疲劳度,还通过椅子上的电容传感器,去检测人的心跳。而之前,疲劳检测只是通过摄像头捕捉人脸。将来,更多维度的数据将被收集,不单单是2D的图象、声音,3D的激光雷达以及心跳数据等也将被纳入到采标的范围内。 3.转折点 需求侧的变化,不可避免地在供给侧引起不小的地震。供给侧开始从密集劳动型行业向新产业、新模式——工具+众包转型。洗牌开始了,数据采标迎来了下半场。 受负面影响最大的第四梯队。无论是采标的复杂还是要求愈高的精度,对于它们来说都不是好消息。去年中旬以来,每天十几、二十几家小作坊要求挂靠在倍赛BasicFinder旗下,这说明小作坊已经失去业务的来源。“他们靠低质量数据和低价抢市场的模式,已经不能持续了。因为AI工程师不能接受低质量的数据,也不能接受不靠谱的交期。”杜霖说。 张三认为,第四梯队坏了规矩。他们先靠低价四处抢单子,而后内测什么样的项目能够在单位时间内产出最多,再去做这个项目。其它项目,则被分包给更小的团队去做。质量难以保证。“他们不算房租、管理等,只核算人工费用。他们的逻辑是一个人一天50块钱,高于这个价就是赚的。于是他们就报100元的单价。而第三梯队需要承担房租,税收、管理费用以及每天的喝水吃饭等乱七八糟的消耗,至少报200元的单价,才可以做。” 早期,第四梯队靠着这种方式,赚了一些钱,回收了硬件成本,并有结余。但2018年初,第二梯队开始做店测,“看看你有多少人,看看你的场地。你不专业,行业正在慢慢把你淘汰掉。”淘汰,意味着没有业务来源,那么多人需要吃饭、拿工资,不专业的第四梯队危机便出现了。即便能够找到项目,采标项目的要求提高,比如准确度要达到95%甚至是99%以上,小作坊必须从团队中抽出一部分人脱产质检和最后的抽检,成本也会上升。 压力,对于行业中的每一个参与者都是同样的。对于龙猫数据、Testin云测、倍赛BasicFinder等第二梯队公司来说,他们需要创业迭代,他们需要想清楚在这个过程中如何突破自我,不断创新,走出自己的舒适区。他们找到了一个抓手起步,需要思考的是未来怎么才能取得全胜。业界认为,第四梯队危机的出现,有利于实力强大的第二梯队靠着服务质量与效率抢占退出的小作坊留下的市场空白。 新阶段与新竞争 数据标注和采集是一个技术活。 需求来到,采标公司做两个方面的工作,一,调配和研发模块,二,进行试标,并尝试总结规则,并培训。做完了这两方面的工作,公司会向需求方报价,报价过程中,采标公司回去准备相关应标材料或者应答材料。 中标之后,采标公司开始传输数据,上传到平台上,并开始配置生产和标注业务。据悉,数据标注业务的配置是一个复杂的数学模型。比如,有些任务需要串并联的工作流,并联的工作流是多人协同的工作。串联的工作流是后一个结果是基于前一个结果进行处理的,串并联的工作流需要平台来实现业务工作流的配置。比如一些NLP型的文本标注作业,需要多个人来标,最后N选一或者投票。串并联配置涉及到底层数据流的分发等。 标注过程中,质量的协同管理和绩效的统计非常关键。平台需及时统计到每个人的准确率、稳定性以及效率。标注完了之后,客户验收前,采标公司还需要抽检。最后,公司按照与客户约定的格式进行交付,这又涉及到格式转化的问题。 以上过程包含了整个标注系统所有的技术核心点。标注和采集服务并不是堆人就能够干出来的。对于依靠人力的第三、第四梯队来说,贾宇航认为,如果它们想转型众包+工具的新生产方式,“局限性比较大”。理由有二: 一,数据行业的领头者会通过这3年的持续服务,在客户圈赢得口碑,品牌效应会给其带来一定的商业积累。一些更在意质量、更在意投入产出比的公司会逐渐向领头者们倾斜。二,技术优势。头部标记公司有资金去优化自己的工具和应对客户的定制化需求,并通过管理经验优化对应的服务体系和流程。而对于小团队想要快速建立已有工具和流程化体系去覆盖一个或多个行业是有局限性的。有两条路可供它们选择,第一,精简团队,专营一个或几个AI公司的业务,做一个小而美的生意;第二,与精英合作,使用精英提供的工具,做平台分配过来的任务。 对于尚未入场的后来者来说,如果后来者一开始便立志做一个众包+工具的平台,除了克服商务壁垒外,在众包方面,众包平台需要强运营能力,需要足够多的人在平台上。平台方需要考虑如何拉新,如何保留日活、月活等。在工具方面,只有一个可采标的APP也是不够的,没有便捷的沟通方式减少误差的传递,也是很难做成的。这就像木桶理论一样,缺一块板都装不了水。换言之,留给新进入者的窗口期逐渐关闭。 业内人士认为,采标市场将进入战国争霸期。实力强大的第二梯队之间不可避免地面临着一场混战。数据采标市场开始趋于统一。第一梯队注定不会成为争霸期的主角。因为行业竞争等方面的考量,采标需求方不会将数据交给百度、京东的众包平台来做。做人力资源外包的上市公司会在下半场拿到一定比例的市场份额,会对五家标采公司造成一定的威胁,但该威胁不大。 下半场,第二梯队将如何竞争?通过与第二梯队中的三家公司深入交流,黑智发现它们对未来和竞争理解各异,布局也不尽相同。这些差异在它们诞生的那一刻起,便被注定。 1.做轻还是做重? 在回答“做轻还是做重”这个问题上,龙猫数据、Testin云测、倍赛BasicFinder给出了不同的答案。Testin云测、倍赛BasicFinder都建有自己的标注团队,而龙猫数据则坚持用众包的形式来做标注。 不同选择的背后,是各家不同的基因。Testin云测成立于2011年,以App兼容性测试作为切入点,进入企业服务,后衍生出功能测试、自动化测试、安全测试、性能测试等服务,成为一站式测试平台。2017年,Testin云测积累了大量客户。一些AI公司找到云测,希望通过云测的众测平台做数据采集。这是Testin云测采标业务的起点。 (编辑:温州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |