从“拼算法”转向“拼数据”！模塑申城语料普惠计划2.0发布：明年底规模超10PB

“语料数据正成为人工智能发展的重要胜负手。”

3月28日，在2026全球开发者先锋大会（GDPS）“语料筑基、智生时代”主题论坛上，上海市经济和信息化委员会副主任潘焱指出，当前人工智能发展正在加快进入应用落地阶段，特别是随着大模型、智能体等技术的持续演进，产业竞争正在从“拼算法”向“拼数据”转变，模型能力要提升，行业应用要落地，智能体要真正走进真实场景，越来越离不开高质量的语料。

本次论坛由全球开发者先锋大会组委会指导，全球开发者先锋大会组委会办公室、上海库帕思科技有限公司、上海人工智能实验室主办。

会上，由库帕思牵头推进的模塑申城语料普惠计划2.0正式发布，在原有基础上，将进一步聚焦“普惠、创新、链接”的总体要求，在原有的基础上，重点围绕科学智能重点提供“高真值、多模态、过程化”语料数据供给服务，并面向OPC（一人公司）群体提供更加轻量化、低成本的语料服务支撑。

据介绍，语料普惠计划2.0将为中小企业、高校师生、创新创业者提供低成本高质量的可持续语料供给，计划到2027年底链接服务500个创新主体，打造300个稀缺数据集，普惠提供语料价值不少于1.5亿，语料规模超过10PB（拍字节，数据存储量单位，1PB=1024TB）。

澎湃新闻记者秦盛摄

上海人工智能实验室青年科学家何聪辉指出，从通用数据走向科学数据，面临着数据封闭、标准缺失、模态复杂等多重挑战。

他表示，与互联网上公开传播的通用数据不同，大量科学数据属于私域数据，封闭程度极高。同时，科学数据模态丰富、专业性强、格式多样，且不同模态之间缺乏对齐，导致AI难以理解。此外，大量暗数据尚未形成有效的语料化，基础设施的不完备也使得数据和模型更多服务于人类科学家，而非AI智能体。

为破解这一问题，何聪辉提出打造科学数据基座“Sciverse”。该体系分为三层：最底层是通识层，包含书籍、文献、教材、代码等共识数据；中间是对齐层，通过人类可理解的方式将不同模态的数据（如序列与结构、注释等）进行对齐；最上层是演化层，包含轨迹数据、推理数据等Agent友好的数据，旨在让AI超越简单的问答，真正成为具备自主发现能力的“AI科学家”。

“如果说过去我们是在‘找油厂’开采原油，那么今天我们的任务是如何把已找到的‘油’精炼出来，这就像一场精细的数据加工工艺，炼数为力。”上海创智学院教授刘鹏飞用比喻解释了当前数据利用的新趋势。

刘鹏飞强调，数据供需矛盾日益凸显，能满足当前AI训练需求的高质量数据越来越少，获取成本也水涨船高。“不夸张地说，现在一条高质量数据的成本可能高达上千美元。”

面对这一挑战，刘鹏飞提出“优化法”的解决思路：“用算力去换数据，本质上就是随着技术能力的提高，变废为宝，把之前被忽略的数据‘捞’起来。这不是简单的数量收集，而是让数据真正可用。”他认为，数据决定了智能的上限和模型的最终能力，未来将是模型与数据“共进化”（co-evolve）的过程，每一代模型的成长都将挖掘出新一代的数据智能。

据介绍，围绕语料数据，上海已形成多层次的语料供给能力、建成了语料运营服务平台、营造了开放协同的产业生态。下阶段，上海将从三方面加强高质量语料供给，培育完善创新生态。

一是聚焦技术发展的新需求，加快数据合成算法、动态价值观知识库的构建、数据投毒过滤算法等语料关键技术的攻关，打造语料全生命周期工具链；二是聚焦行业新应用，借鉴FDE模式（前沿部署工程师模式），深化实施语料专项治理行动，加快构建行业高价值语料，打造服务垂类模型训练的行业语料基座；三是聚焦OPC等新产业形态，打造标准化、轻量化的语料创新产品，打造适配多场景、兼具多专业性的语料服务模式。