高质量数据集项目案例
垂直领域大模型似乎都没有大家想象的那么好用或者说有用,行业内比较大的声音是训练数据不够,无论是数量上还是质量上。确实,高质量数据集正在成为人工智能竞争的基础底座,海洋领域也一样。问题是,高质量数据集应该包含哪些构成,如何建设才能使得大模型好用呢?
近期公开的一批项目,提供了比较直观的案例参考。数据集不是“把数据攒起来”就行,而是要解决采集、汇聚、加工、评测、应用整套问题。
以下为部分项目案例梳理:
一、粤港澳大湾区低空飞行多源融合高质量数据集
项目名称: 粤港澳大湾区低空飞行多源融合高质量数据集
项目总投资:11000万元
建设内容:
汇聚10家及以上外部机构数据,建设低空飞行多源融合高质量数据集,搭建采集、处理、标注、产品服务、AI智能体应用、数据安全等平台。
建设目标:
建成不少于5个功能模块、20条工具链;形成1200亿Token预训练数据集、180万条指令微调数据、12万组强化学习偏好数据、1.8万条基准测试数据;多模态数据占比和近3年时效性数据占比均不低于40%;支撑15个细分场景,服务10家用户;软硬件国产化率超过80%;组建55人标注专家库,牵头制定1项以上低空领域数据集建设标准规范。
项目网址:
https://tzxm.gd.gov.cn/PublicityInformation/resultDetail2.html?id=2034926051095818241&audit=ba&flag=gk&textShowFlag=undefined
二、畜禽养殖行业高质量数据集建设项目
项目名称: 畜禽养殖行业高质量数据集建设项目
项目总投资:20000万元
建设内容:
对现有数据中心进行改造,改造建筑面积800平方米;购置必要的软件、硬件设备设施,围绕原始数据采集、汇聚、清洗、标注、生成、评测、封装等环节,搭建行业高质量数据集加工生产平台。
建设目标:
建成后实现多种模态数据覆盖,汇聚多家外部机构数据,打造多个应用场景,推动智能育种、精准饲喂、疫病智能预警等人工智能应用落地。
项目网址:
https://tzxm.gd.gov.cn/PublicityInformation/resultDetail2.html?id=2038414340926812161&audit=ba&flag=gk&textShowFlag=undefined
三、电力行业高质量数据集标注平台关键技术研究与示范
项目名称: 电力行业高质量数据集标注平台关键技术研究与示范
项目总投资:5300万元
建设内容:
面向电力行业高价值场景,构建支撑AI模型训练的高质量数据集供给体系,形成集数据处理、智能标注、样本合成、质量评测于一体的数据生产能力。
建设目标:
研发自动化加工与标注工具链,落地100个以上算子、20个标注模型;形成至少4类多模态数据合成工具;建立电力特色数据集测评体系,开发自动化评测工具,实现动态评估、自动生成报告和优化建议。
项目网址:
https://tzxm.gd.gov.cn/PublicityInformation/resultDetail2.html?id=2009543366760501250&audit=ba&flag=gk&textShowFlag=undefined
四、重点行业数字化系统故障诊断与性能预测数据集建设
项目名称: 重点行业数字化系统故障诊断与性能预测数据集建设
项目总投资:3000万元
建设内容:
面向电力、金融、通信、政务等行业客户,围绕系统运维智能化、系统性能优化、网络安全与应急演练等场景,建设高价值数据集体系。
建设目标:
构建超2000万条、数据总量达1000TB的数据集,围绕故障诊断数据集、性能预测数据集、测试用例数据集三大模块展开建设,形成覆盖预防维护、故障诊断、应急处置和性能优化的全生命周期智能运维体系。
项目网址:
https://tzxm.gd.gov.cn/PublicityInformation/resultDetail2.html?id=1920751791033597954&audit=ba&flag=gk&textShowFlag=undefined
五、面向“一带一路”沿线国家小语种的多模态多行业高质量数据集平台
项目名称: 面向“一带一路”沿线国家小语种的多模态多行业高质量数据集平台
项目总投资:10000万元
建设内容:
聚焦葡语系、东盟十国及中亚地区,建设覆盖小语种、多行业、多模态的高质量数据集平台,为政府、企业和开发者提供标准化数据服务平台与AI模型训练支持。
建设目标:
覆盖60种以上小语种、16个以上垂直行业,涉及跨境贸易、金融、医疗、教育等领域;推动3个以上跨境应用场景落地,如智能翻译、电商推荐;提出运营首年数据服务收入不低于5000万元的目标。
项目网址:
https://tzxm.gd.gov.cn/PublicityInformation/resultDetail2.html?id=1888030900202020865&audit=ba&flag=gk&textShowFlag=undefined
六、智能驾驶高质量多模态数据集
项目名称: 智能驾驶高质量多模态数据集
项目总投资:12000万元
建设内容:
购入专属多模态数据采集装备、数据存储设施、服务器设备、网络设备、安全设备、应用软件、定制开发软件等,建设智能驾驶高质量多模态数据集基础设施、多模态数据采集和汇聚平台、数据集加工生成平台、大模型训练及数据仿真平台、高质量数据集应用场景。
建设目标:
形成不少于5个数据加工处理功能模块、不少于20个工具链,开发形成智能驾驶行业专属的预训练、指令微调、强化学习偏好、基准测试高质量多模态数据集。
项目网址:
https://tzxm.gd.gov.cn/PublicityInformation/resultDetail2.html?id=2034550499310645250&audit=ba&flag=gk&textShowFlag=undefined
从这些案例可以看出,高质量数据集建设正在呈现几个明显趋势:一是更加突出行业场景牵引,围绕智能驾驶、养殖、电力、低空等具体领域展开;二是更加突出多模态和大规模,部分项目已明确提出千亿级Token目标;三是更加突出平台和工具链建设,不仅建设数据,更建设持续生产数据的能力;四是更加突出应用落地和标准规范,推动项目从资源建设走向产业赋能。
