蓝鲸新闻12月12日讯(记者武静静)大模型为什么能够回答各种复杂问题,甚至超过普通人?答案的关键,还有一个不起眼,却至关重要的环节——数据标注。
在模型运作中,数据标注者就像“老师”:简单任务时,他们为AI的回答打分,将最优答案呈现给用户;复杂任务时,他们亲自操作,让AI学会理解:比如叙述一张图所讲的故事,完成一个操作界面中的具体步骤。
曾经被视为低门槛劳动的数据标注,正在大模型行业经历深刻变革。多个行业内部招聘群出现一种特殊需求:金融、法律、物理等专业的硕士、博士,被高薪招募从事数据标注工作。
招聘要求与以往截然不同:985/顶尖院校硕士起步,部分需博士及2年以上行业经验。工作内容不再是“标注撰写”,而是撰写高难度专业题目、构建推理链条、解析模型输出并纠错。时薪从100元跃升至400元以上,更有甚者上不封顶。
多家标注公司证实,2024年行业出现了显著的需求变化。随着大模型竞争焦点转向推理能力,训练数据在专业性、精细度和逻辑复杂度上要求剧增。“不是我们想招博士,是行业现在需要博士。”一位负责人总结。这背后也反映了模型能力的变迁:竞争的核心已从比拼数据规模,转向了比拼数据质量与智能水平。
从粗颗粒到“专家级标注”:行业只用了1 年
行业风向标在一年内骤然转向。这印证了业界对于大型模型演进速度的超预期感受。在新一轮大模型迭代中,数据标注市场正在发生一次被忽视但极为关键的结构性变化。
记者从知情人士处了解到,某头部大厂曾为应对当时的“普通标注”需求,在人力成本较低的三四线城市自建了标注基地。然而,大模型的进化速度远超预期,对数据的质量要求变得更好,基地的团队能力与培训体系难以跟上这种突变。
据他透露,这种案例在业内并不是个例。“许多人低估了大模型的实际发展速度。他们原先的预期是普通标注阶段需要三到五年时间,实际情况是,短短一年内就已经全部完成。”
关键的时间节点就在2024年左右,此前数据标注行业多围绕CV、短文本、语音转写等低知识密度工作,普通的大学生就可以完成。
从2024年开始,随着大模型在to B和to G行业落地加速:提升模型能力不再靠堆规模,而要靠“结构化知识”和“高质量数据”。这直接导致任务形态发生重构,出现大量专业门槛极高的内容需求:比如代码模型的逻辑审校、解释与优化;医疗、法律、金融等领域的专业问答;多语种、方言体系的对齐;复杂agent 的任务链路构建等,越来越多任务必须由硕士、博士来完成。2025 年起,这类专业深度的标注需求愈发明显。
相应的,对参与数据标注的人要求也变得更高,薪资也水涨船高。记者查阅资料发现,在最头部的平台,这类人才的时薪已经从几十涨到400元;医疗、法律类还更高。一位业内人士透露:“有大厂以月薪10万的价格挖三甲医院医生做标注。”
一位金融从业者讲述了试工经历:实际任务是一道开放难题,连头部大模型都无法直接解答,需应聘者独立构建推理、提供解析并点评模型错误。“我写了三小时,极其复杂。据说几十人里就我一个过关。”他8月正式接单,一道金融题常需近4小时,但平台结算时间封顶3小时。“质检直接通过,无需返修,说明难度确实高。”
从供给侧看,据记者了解,目前字节、腾讯、阿里、百度、美团等大厂,以及最近两年加速推动大模型落地的大型B端机构是复杂知识类标注任务的主要买方。
大厂普遍自建标注平台,个人可通过申请进入。以字节为例,其大模型标注与评测平台Xpert在公开招聘中给出的区间是“100—500元/时”,并强调已有专家“每天工作2小时、月入2万+”。准入门槛同样不低:要求国内外TOP 高校在读生,硕博优先。
记者了解到,申请流程除了提交基础资料,还必须参加一次性的准入考试。平台会在几天内发放一套考卷,根据得分决定是否通过,且没有重考机会。题目难度会依领域而异,但整体以专业知识为主,本科至博士阶段的学术内容占比很高,也会结合候选人的背景与工作年限进行匹配。

OpenAI的300位生物学博士,只是开始
全球范围内的竞争也推高了这股趋势。OpenAI 今年大规模招募生物学博士做专业标注,每小时100美元,300人团队一周成本120 万美元,相当于一年支出接近6亿元人民币。而这仅是生物学一个领域的数据生产需求。物理、化学、数学、社会科学等专业加起来,数据预算的深度几乎难以想象。
但钱只是第一步。真正的竞争焦点在于谁能把这些昂贵的专家数据真正转化为模型能力。
业内普遍认为,这需要两个工程链路同时跑通:能稳定生产高质量、结构化的专业知识;能让模型真正学到路径,而不是“背答案”。“如果只是靠人力写出标准答案给模型背,那意义不大。关键是让模型学到知识的结构。”一位参与某大厂项目的标注专家说。
也因此,资本与企业的注意力正在转向数据生产的“工程化能力”。在海外,Scale AI、Surge、Mercor 等平台化公司迅速崛起,随着标准化流程和工具链驱动规模增长,估值一路上涨。
Scale AI的成功用“平台+标注工具+交付体系”模式,将传统“数据外包”变成了的数据工业化流水线,完成了规模化扩张,最终Meta以约148亿美元的价格收购了Scale AI 49%股份的收购。Mercor则凭借其在尖端人才招聘领域的积累,打造了面向高质量数据标注需求的新平台,一跃成为这个赛道最年轻的百亿美金独角兽初创公司,其估值已突破100亿美元。
国内的格局则有所不同。由于数据保密性要求更高,各大厂几乎都自建平台,并在内部形成了相对封闭的标注体系,单独对外灵活招聘。同时,行业最有话语权的一批玩家是语音、自动驾驶和早期CV 浪潮中成长起来的公司——海天瑞声、数据堂、标贝等,它们凭借技术积累在这一轮大模型时代顺利完成转型,至今仍掌握着大量核心供应能力。与此同时,不少初创团队也在围绕持续变化的模型能力热点如AI眼镜的视觉交互、GUI模型的界面理解等领域,持续供给新的“数据燃料”,成为大厂和传统数据公司的上游补充力量。
数据标注的本质,是教会AI理解人类世界的逻辑、规则与常识。而对专业标准人才的争夺的背后是一场更为深远的竞争——在大模型愈发垂直化、复杂化的今天,谁掌握了这套“数据生产工程”,谁就握住了下一代人工智能能力的底层钥匙。
有公司甚至把岗位描述写得极其文艺:“你将作为AI 进化的关键参与者,沉淀行业智慧,指引模型能力的边界。”然而,在这条将人的智慧抽象为“数据燃料”的生产链上,最现实、最直接的吸引力,还是钱。