来之不易是什么意思| 忧心忡忡是什么意思| 什么的芦花| 肝火郁结是什么症状| 脑梗是什么引起的| 肺热吃什么中成药| 双向情感障碍吃什么药| 区号是什么| 凝固酶阳性是什么意思| 什么是双开| 照是什么意思| jennie什么意思| 什么时候入梅| 固精缩尿是什么意思| 7月20号是什么星座| 螨虫怕什么| 不造是什么意思| 脖子上长小肉粒是什么原因| 容易淤青是什么原因| 检查前列腺做什么检查| 咳嗽吃什么食物好得最快最有效| 鸡蛋清敷脸有什么好处和坏处| 翘首以盼是什么意思| 便秘吃什么最快排便| 舌苔厚是什么原因| 外阴炎是什么原因引起的| 出油多是什么原因| 推辞是什么意思| 任性的女孩有什么特点| 感染科主要看什么病| 素鸡是什么做的| 阳历三月是什么星座| 昀是什么意思| 尿急憋不住尿是什么原因| 医保是什么意思| 教育基金是什么意思| 邀请的意思是什么| 凝血功能差是什么原因| 九月初三是什么星座| 孕妇佩戴什么保胎辟邪| psa升高代表什么| 什么叫根管治疗| 什么的李逵| 530是什么意思| 六月五号是什么星座| 为什么晚上不能晾衣服| 年下是什么意思| 1959年属什么| 头晕出冷汗是什么原因| 烟酒不沾的人什么性格| 防中暑喝什么水| 尿蛋白是什么意思| 女予念什么| 辣木籽有什么功效| 生抽可以用什么代替| 最后一个出场叫什么| 白血病是什么原因引起的| 减肥吃什么好而且瘦的快| 钢琴八级是什么水平| aivei是什么品牌| 韧带损伤有什么症状| 体内湿气太重吃什么药能快速除湿| 妃嫔是什么意思| 鸡蛋壳属于什么垃圾| 禁果什么意思| 腹胀是什么病的前兆| 孕期吃什么补铁| 磨玻璃结节影是什么意思| 为什么会有口臭| npv是什么病毒| 肺结节吃什么药| 次第花开是什么意思| 世界上最大的哺乳动物是什么| 拔罐有什么好处| 月经期间喝红糖水有什么好处| 大姨妈来吃什么水果好| 5个月宝宝可以吃什么水果| 毛主席什么时候去世的| 15岁属什么| 经过的意思是什么| 经期不能吃什么| 各奔东西是什么意思| 一见倾心什么意思| 给老人过生日送什么礼物好| ich是什么意思| 杨柳木是什么生肖| 易拉罐是什么垃圾| 情人节送什么花| 为什么会肾结石| 拉肚子是什么原因引起的| 6代表什么| 脊灰疫苗是预防什么的| rhino是什么意思| 茭头是什么| 电气火灾用什么灭火器| 提报是什么意思| 抗生素药对人体有什么危害| 尼莫地平片治什么病| 吃生蚝有什么好处| 痉挛吃什么药| 95年是什么命| normal什么意思| 凉血是什么意思| 营养过剩会导致什么| 湿疹为什么晚上特别痒| 凌晨三点是什么时辰| 藏红花泡水是什么颜色| 皮肤偏黄适合穿什么颜色的衣服| 嗓子疼吃什么药效果最好| 婕妤是什么意思| 脾大是什么意思| 强的松又叫什么| 什么减肥药最安全| 尿葡萄糖阴性什么意思| 哔哩哔哩会员有什么用| 什么是终端| 卵泡是什么东西| 57是什么意思| 脚气涂什么药膏| 什么是放疗| sale是什么牌子| 黄疸是什么引起的| 弓形虫抗体阳性是什么意思| 吃什么补钙最好| 血崩是什么症状| 蜜蜂是什么生肖| 山东简称为什么是鲁不是齐| 细软是什么意思| mle是什么意思| 子宫位于腹部什么位置| 胎盘能吃吗有什么作用与功效| 1月4日是什么星座| 做梦吃鱼是什么意思| 十的偏旁有什么字| 赤子之心什么意思| 梦见考试是什么预兆| 头痛呕吐什么原因| 女右上眼皮跳是什么预兆| 下午三点多是什么时辰| 属蛇男和什么属相最配| 一抹多是什么意思| 什么什么来迟| 怀疑心梗做什么检查| 欣赏一个人是什么意思| 胃镜是什么| 12月26日是什么星座| 荨麻疹是什么病| 双花是什么中药| 中医减肥挂什么科| 肌酐低是什么原因| 荣辱与共是什么意思| 唇釉是什么| 老板喜欢什么样的员工| 白细胞偏高是什么意思| 胸闷想吐是什么原因| 身体出汗多是什么原因| 喝老陈醋有什么好处| 胰腺炎的症状是什么| 祠堂是什么意思| 母亲节送给妈妈什么礼物| 真丝乔其纱是什么面料| 脸部痤疮用什么药| 人流是什么| 什么是花青素| 脑白质疏松症是什么病| 肝占位病变是什么意思| 肠炎吃什么食物调理| 吃什么对眼睛近视好| 孕妇缺营养吃什么补| 化验血能查出什么项目| 医保定点医院是什么意思| 吲哚美辛是什么药| 咳嗽痰中带血是什么原因| 过期的啤酒有什么用处| 11月1日什么星座| 冷都男是什么意思| 危险是什么意思| 布蕾是什么| 屁很多是什么原因造成的| 手脱皮是什么原因引起的| 红米是什么| 三月份是什么星座的| 宫颈欠光滑是什么意思| 大姨妈不能吃什么水果| 肌酐高了是什么原因| 宫寒是什么意思| ofd是什么意思| 阿迪达斯是什么牌子| 牙龈翻瓣术是什么意思| 牙龈发黑是什么原因| 卵巢多囊样改变是什么意思| 水瓶座什么象| 大姨妈来了能吃什么水果| 玺是什么意思| 血糖高是什么意思| 女孩叫锦什么好听| 眼睛散瞳有什么危害| 免单是什么意思| 美背是什么| ca代表什么病| 什么地诉说| 63年属什么生肖| 相濡以沫是什么生肖| 喷的右边念什么| 人为什么会生气| 甲流吃什么药效果最好| 做梦怀孕了是什么意思| 勃起困难是什么原因造成的| 腹茧症是什么病| 膝盖疼用什么药| 护士是什么专业| 猫咪能看到什么颜色| 八岁属什么生肖| 饭后呕吐是什么原因引起的| 早餐吃什么营养又健康| dpm是什么意思| 黄瓜和青瓜有什么区别| 护理学和护理有什么区别| 小腿浮肿是什么病| 女性多囊是什么意思| 孕妇抽筋是什么原因引起的| 乳头大是什么原因| 指压板有什么功效| 脚突然肿了是什么原因| 碎花裙配什么鞋子| 阿司匹林和阿莫西林有什么区别| 眼角痛什么原因| 377是什么| 女生下面叫什么| aq什么意思| 艾灸脚心有什么好处| 中二什么意思| 八八年属什么| 女性胃炎有什么症状| 甲状腺吃什么药好| 梦见怀孕是什么预兆| 多梦睡眠质量不好是什么原因| 鼠辈是什么意思| 糜米是什么米| 鸡伸脖子张嘴用什么药| 什么床垫好| 黄金为什么值钱| 阳亢是什么意思| 孕妇便秘吃什么水果| 暇步士是什么档次品牌| 蹄花是什么| 1944年属什么| 杨柳代表什么生肖| 甲状腺斑块是什么意思| 扁平苔藓是什么原因引起的| 炸腮有什么症状| versace什么牌子| 孜孜不倦什么意思| 20年是什么婚| 用盐水洗脸有什么效果| 迪丽热巴什么星座| 肌底液是干什么用的| 脑梗什么不能吃| 九月3日是什么日子| 五行火生什么克什么| 退步是什么意思| 自控能力是什么意思| 是什么意思啊| 蜂胶是什么东西| 百度
订阅
纠错
加入自媒体

143亿美元天价并购背后,AI数据服务到底是怎样一门生意?

2025-08-04 18:10
数智前线
关注

中美都在押注,数据标注为什么站到C位

文|任晓渔

编|徐鑫

“亲爱的特朗普总统,美国必须赢得AI战争。”今年年初,年仅 28 岁的 Alexandr Wang在川普就职典礼第二天,在华盛顿邮报为自己的数据标注服务公司Scale AI打出了整版广告。

Alexandr Wang这个看起来颇为“加戏”的动作,让数据标注第一次走进普罗大众视野。它也凸显一个现实——在AI三要素里,相比模型和算力领域里的硝烟滚滚,大众对数据领域的演进缺乏更多的认知。

不过,两周前,Meta以143亿美金收购Scale AI 49%股权,这让AI数据服务领域真正成为了全球关注焦点,也引发了美国数据标注产业的一场大地震。

无独有偶,除了美国巨头押注AI数据服务价值,国内数据标注产业过去一年多里热度也在不断攀升,顶层设计和市场端都有不小的动作。7大国家级数据标注基地试点城市落地,国家数据局还集中发布了47个数据标注优秀案例集,同时,一批数据标注服务公司则迎来了业绩的快速攀升。

不过,在产业界的频繁动作之外,业界又流行一个说法,数据标注正在加速自动化,技术进步正在许多标注任务逐渐消失。

这让人好奇,中美都在押注的领域,到底是怎样一个产业?当下这一领域处在怎样的发展阶段?自动化会让数据标注走开吗?接下来竞争将如何展开?

01 并购案背后,AI基础数据服务站上C位

“数据是人工智能中最有价值的资产之一”,这句人工智能时代的共识,在Scale AI并购以及随之而来的AI基础数据服务产业震荡中得到了绝佳的验证。

143亿美金的并购金额,在Meta的并购历史里仅次于收购whatsApp。Meta愿意支付这个价码,背后是Meta对在当下大模型竞争里掉队的焦虑。

过去几个月里,这家硅谷巨头面临着不小的压力。今年4月,Meta发布的Llama 4 模型反馈不及预期,更大的模型Behemoth也被延期发布。

被收购一方,Scale AI之所以能叫出天价,既要从这家公司在AI基础数据服务领域的地位说起,又与数据标注和挖掘在当下的模型训练中的重要位置密不可分。

Scale AI成立于2016年,它最初是一个提供众包服务的平台,帮助企业完成一些内容审核、数据提取等需要人工操作的任务。之后随着自动驾驶领域对数据审核与标注的庞大需求。Scale AI开始专注在数据标注领域,帮助客户收集、清理、标注和管理大规模数据,助力自动驾算法研发。

大模型浪潮来临后,Scale AI收入从2022年的2.9亿美元一下子飙升到2023年的7.6亿美金,2024年继续增长到8.7亿美金。有消息称预计2025年这家公司的营收将达到20亿美金水平。

如果你对它的营收没有太多的概念,OpenAI 2024营收为37亿美元。而根据Grand View Research数据显示,2023年全球数据标注和服务市场规模达140.7亿美元。其中,美国的市场规模达42亿美元,全球占比近30%。Scale AI的收入规模,称得上是数据基础服务领域里的卖水人之一。

图片

Scale AI的客户包括谷歌、苹果、xAI、Meta、微软和亚马逊等在内的一众硅谷巨头。去年谷歌在Scale AI的花费约 1.5 亿美元,是它的第一大客户。

科技媒体BI报道,今年4月,Scale AI为Google运行了至少38个活跃项目,占当时Scale AI在该列表上的107个生成式AI项目的三分之一以上。而服务xAI的数据项目里包含了一个名为Xylophone 的项目,主要是帮助训练xAI的聊天机器人,提升其在广泛话题上的对话能力。

广泛的客户网络,其实反映了数据标注和AI基础数据服务在当下模型训练中的重要位置。

人工智能行业有一个提法,“垃圾进,垃圾出”,数据的质量十分影响模型的表现。而数据标注本质上是要把大量机器无法理解的非结构化数据翻译成机器能理解的结构化数据。大模型浪潮下,由于数据参数规模空前,为了提升模型智能水平,围绕着数据标注和处理的预算也在飙升。

据AI 基础数据服务厂商LXT2024年对322家有AI 项目经验的美国企业的调研,整个2023年企业在训练数据上的资金投入占这些企业的AI整体建设投入的15%。此前行业内还流传一个说法,高质量的标注数据是ChatGPT效果区别于其他竞争对手的原因之一。

重重因素之下,Meta做出了大手笔并购Scal AI的决定。也许在当下的Meta看来,通过与数据服务领域领头羊合作,有助于其更好地获得模型训练的专有数据,并且能基于数据来训练更高智能的模型,从而在当下大模型竞争中跟上节奏。

这项大手笔收购也使得数据标注产业和人工智能供应链条发生了一系列连锁反应。

首先是,一大批与Meta的模型存在竞争关系的厂商纷纷开始切断与Scale AI的合作。比如Scale AI的最大客户谷歌就在交易达成后立即暂停了两个代号为"Genesis"和"Beetle Crown"的项目合作。

其次是,与Scale AI竞争的一批数据标注厂商们则趁机开拓客户,比如Sapien,Appen、Prolific 和 Turing等企业成为不少AI厂商多元化数据标注供应商选择时的候选。Sapien AI的CEO Rowan Stone还表示,在 Meta 交易后 48 小时内,他们平台新增 4 万名数据标注注册者,服务器都崩了。

在人们对Meta收购影响Scale AI标注数据中立性以及对商业机密泄漏的担忧中,Scale AI也发表了平台中立性声明。

但声明发布并未止住行业内的各种争议。一场行业大洗牌已经在进行中。

02 政策市场双驱动,国内市场狂飙猛进

海外数据标注产业大洗牌之际,过去一两年里,中国作为全球人工智能产业增速最快的国家之一,数据需求快速增长,数据标注领域也随之演进。

首先是政策端的加持非常明显,去年开始国内接连出台与数据标注相关的政策法规,从顶层设计上为数据标注产业提供催化剂。

去年6月,国家数据局发布首批7家数据标注基地试点城市名单,七个城市在数据标注产业的生态构建、能力提升和场景应用等方面扮演了先行先试的角色。

IDC告诉数智前线,这一政策初衷是为了推动高质量数据集建设,目标也是为了更好的推动AI发展、为数据要素流通提供标准数据支持,在城市选择上会综合考虑城市需求、人才结构等因素。

去年12月,数据标注领域又迎来了重磅纲领性文件。国家四部委联合发布《关于促进数据标注产业高质量发展的实施意见》,明确提出了到2027年产业规模年均复合增长率超过20%的发展目标,为国内的数据标注产业构建起了产业发展的“四梁八柱”。

同时,各地过去一年也不断出台相关的法规和政策,指导产业发展。

图片

图表来源:东北证券研报

同时,行业主管部门还积极树标杆,推动行业标准化建设。今年4月,国家数据局在第八届数字中国建设峰会“高质量数据集和数据标注主题交流活动”上发布了47个数据标注优秀案例集,涉及到医疗、交通、农业、能源等20余个领域。这些标杆案例提供了可复用的实践范本,也为相关领域的标准统一、经验共享打下了基础

政策加持的同时,随着大模型落地应用浪潮的到来,数据标注市场侧热度和规模也由明显的提升。一批企业如海天瑞声,澳鹏等都迎来了业绩的快速增长。

以澳鹏为例,今年2月澳鹏发布2024年年报显示,去年其中国区业务营收突破4.2亿,年增长达到71% ,其中的大模型/AIGC业务增长了526%。澳鹏披露,许多AI龙头,特别是大模型 AI企业成为了澳鹏的客户,大模型及大模型相关业务已经占据了澳鹏中国营收的40%。

AI数据服务创业公司整数智能CEO林群书则告诉数智前线,去年随着多模态模型的快速演进,他们感受到市场的数据标注需求呈现出指数级增长。

一位行业资深人士认为,数据标注领域市场端的热闹,与过去一年多人工智能领域的结构性变化有关。以DeepSeek为代表的国产开源模型正极大拉平国内与海外的模型方面的差距,同时国产模型进步,对算力的消耗降低,缓解了许多企业的算力焦虑,使得数据层面重要性被提到更高位置。

“数据的质量、规模和精准性将直接决定模型能力的上限,也成为模型落地效果的关键。”该人士告诉数智前线。

产业的想象空间在快速打开。艾瑞咨询的数据显示,2024年中国人工智能基础数据服务市场规模为58亿元,2028 年规模将达到170亿元,年复合增长率为30.84%。

而IDC告诉数智前线,目前模型应用走向垂直领域,数据标注的场景需求主要围绕自动驾驶、教育、医疗、金融、零售、政务等展开。

市场热度增加,数智前线观察到,行业内的参与主体也在变多,竞争正变得激烈,同时,产业链上中下游界限也逐渐模糊起来。

比如模型厂商可能从提供更完整的模型能力配套角度,在数据标注领域有相关的产品服务。典型的有智谱AI,去年它推出的Batch API,利用大模型技术来解决数据标注问题。百度智能云等数据标注服务。

也有应用企业从AI落地的角度,在应用中推出了一些运营工具标注一些数据,降低场景内的幻觉。典型有瓴羊在智能客服Quick Service应用里推出AI运营中心,针对智能客服场景里的幻觉问题,通过训练中心进行标注,将高质量数据来反哺模型,让问答更加准确。

“应用内的标注缓解模型幻觉服务于模型微调的环节,是基模现阶段能力不足的一个补充或临时方案”,一位数据标注行业人士告诉数智前线。

03 技术演进,让数据标注走开?

全球数据标注产业快速发展之际,也有一种声音认为,数据标注领域可能会因为技术进步,面临新的挑战。比如就有人指出,未来AI会自动完成许多标注任务,标注领域的企业可能需要加速转型。

针对这一趋势,数智前线同多位行业人士交流,业界普遍认为大模型时代,数据标注正逐渐走向复杂化、自动化和专业化。自动化浪潮并不意味着不需要标注。

首先是数据标注的复杂化趋势,它与大模型技术演进带来的数据标注需求变化有关。

主流大模型普遍采用了无监督自动学习机制,在预训练环节大量使用无标注数据,而之后的监督微调(SFT)和基于人类反馈的强化学习(RLHF)阶段,仍需要人工标注。

一位数据标注行业人士介绍,基于人类反馈的强化学习(RLHF)环节,企业的数据需求,需要人去对机器给出的答案去做排序和对齐,把人文的倾向、三观、喜好给机器学习。相比此前拉框画圈式的简单标注,在微调和RLHF环节,数据标注的复杂度变得更高,对标注团队的要求也更高。

行业内此前还传说,在RLHF环节,一些团队有博士团来完成标注任务。比如Scale AI就在RLHF环节招聘过几十名博士来提供数据标注服务,而OpenAI内部同样有几十名博士来配合,在Scale AI标注之后做这些标注的质量检测。

而标注的自动化趋势则与大模型技术进步用到数据标注领域有关,数据标注本身利用模型也实现了提质增效。海外的开源数据标注及清洗平台Refuel AI此前就做过测试,AI能显著提升数据标注的质量,也能降低数据标注的成本。

图片

各种NLP任务中模型标注相比人类标注的标签准确度(与真实标签的吻合度)明显更高。每一列中数值最高者以绿色突出显示。

数智前线观察到,目前,国内和海外数据标注厂商都在提升数据标注的自动化水平,将数据标注的任务从人工手动操作的劳动密集型向平台化的自动标注方向去转变。海外的Scale AI、海天瑞声、澳鹏以及整数智能,都有自己的自动化数据标注平台。

除了专业数据服务商,一些企业内部的标注场景也在自动化。以自动驾驶场景为例,特斯拉此前组建了规模庞大的企业内数据标注团队,但从2022年它们开始裁撤辅助驾驶系统开发的数据标注团队规模,通过Dojo超级计算机来对海量视频数据做无人监管标注和训练。

图片

数据智能服务商每日互动总裁刘宇告诉数智前线,在当前激烈市场竞争下,对数据标注服务商而言,将自己的服务能力沉淀为标准化产品,对企业而言能提升竞争的门槛,“同样的劳动力能更高效标注,标注质量以及供应稳定度更高”。

不过,行业内也认为,这种自动化的趋势并不意味着标注任务和专业服务商没有了用武之地。实际上,随着AI朝向垂直场景落地,专业领域里复杂任务对人工标注的需求是在增加的

“数据标注难度越来越高,当数据自动化程度越高,例如AI可以完成90%自动标注,剩下10%也更加关键。” IDC中国高级分析师李浩然告诉数智前线。

一家AI应用厂商此前也告诉数智前线,单点的拉框打标工作,AI可能也能完成,但许多更专业的领域知识标注,只能通过人工完成。

另外推理模型出现后,也非常需要思维链相关的数据。“它非常需要理解业务的专业人员,通过规则和模型参数的配置,来更好的拆解问题。“

李浩然也提到,当数据可以被自动化标注、合成时,其可以为模型带来的价值也会更低,企业会投入更多资源来人工标注更复杂的问题。“之前的教育题目可能是初高中,现在可能是大学题目,另外之前的图片标注只需要圈出人脸,现在还需要输入文本来理解图片表达的含义,以及其中的结构关系。”

这些趋势下,数据标注领域的演进方向也变得明晰。

一方面,行业的准入门槛从劳动密集性向技术密集型以及更高专业门槛演进。另外,由于玩家竞争的重心向技术能力、场景资源等复合性能力转变,在更多玩家入场的同时,行业内的淘汰赛也已经同步展开,市场的竞争已经变得更加激烈。

       原文标题 : 143亿美元天价并购背后,AI数据服务到底是怎样一门生意?

声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

    文章纠错
    x
    *文字标题:
    *纠错内容:
    联系邮箱:
    *验 证 码:

    粤公网安备 44030502002758号

    液氧是什么 阴囊潮湿是什么原因造成的 梦见戴孝是什么意思 双氧水是什么东西 蛋白粉有什么功效
    自负是什么意思 kipling是什么牌子 美洲大蠊主治什么病 酸麻胀痛痒各代表什么 小茴香是什么
    早上起床喉咙有痰是什么原因 风寒感冒吃什么中成药 fdp偏高是什么原因 宫颈多发纳氏囊肿是什么意思 曩是什么意思
    什么叫换手率 眼黄瘤什么方法治疗最好 蓝莓什么季节成熟 阿奇霉素主治什么病 为什么会经常流鼻血
    上海话十三点是什么意思hcv8jop6ns6r.cn 拉屎发黑是什么原因hcv8jop0ns9r.cn 五什么四什么hcv9jop1ns8r.cn 腌鱼放什么调料hcv9jop0ns2r.cn 翻白草长什么样hcv8jop1ns9r.cn
    为什么小便会带血hcv9jop3ns4r.cn 血脂高吃什么油hcv8jop7ns5r.cn 肝在什么位置hcv9jop4ns3r.cn 请丧假需要什么证明hcv8jop3ns8r.cn 化疗有什么副作用hcv9jop7ns9r.cn
    梦见偷别人东西是什么意思hcv7jop6ns5r.cn 什么是阴道hcv9jop3ns0r.cn 久站腰疼是什么原因hcv8jop9ns3r.cn 十八大什么时候hcv8jop0ns4r.cn 经常腹痛什么原因hcv9jop4ns1r.cn
    尿浑浊是什么病的前兆hcv8jop7ns6r.cn 默契的意思是什么hcv9jop3ns7r.cn 脉搏是什么hcv8jop9ns2r.cn 下巴长硬包是什么原因hcv7jop6ns9r.cn 1963年发生了什么hcv8jop4ns0r.cn
    百度