数据被誉为数字经济时代的“新石油”,价值巨大。如何将其“炼化”成驱动人工智能(AI)奔腾向前的“高标号汽油”?合肥正全力作答:通过构建高质量数据集,激活千行百业创新蝶变,描绘智慧城市新图景。
解码核心:何为高质量数据集?
数字经济时代,数据“石油”成为驱动社会发展的核心生产要素。但未经“提炼”的原始数据,往往裹挟着噪声与混乱,唯有经过系统性整合,才能发挥真正的价值——建设高质量数据集就是让数据价值从“潜在”走向“现实”的关键一步。
中国信息通信研究院副院长魏亮曾作过形象的比喻:“数据之于大模型,就像石油之于汽车。原油只有经过一系列复杂的过程炼化成汽油后,才能供汽车使用。同样,海量原始数据需要经过‘炼化’形成高质量数据集,才能助力大模型精准学习数据特征与规律。”
简单说,高质量数据集是指经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型性能的数据的集合。与原始数据相比,高质量数据集具有三个显著特征:一是主题明确,围绕特定目标系统化组织;二是质量达标,在多个维度达到较高标准;三是即用性强,经过处理后可直接输入AI模型。
“想象一下,刚设计出的人工智能(AI)和大模型算法,就像个‘新生儿’,高质量数据集就是它的‘启蒙教材’,能引导它从懵懂走向睿智。”安徽数据堂科技有限公司(以下简称“数据堂”)副总经理张子斌的解释更接地气。
如何高效“编写教材”?AI技术本身就成了关键帮手。张子斌介绍,10年前人工标注是主力,比如手动框选图片中的橘子、鸡蛋等,效率很低。如今,数据堂的“数加加”人工智能标注平台创新应用AI辅助标注技术,让人工智能反哺标注过程,效率得以大幅提升,“同样的工作量,现在只需过去20%的人工时间”。
近日,数据堂发布多语种大模型预训练数据集、多模态大模型数据集、语音识别与计算机视觉训练数据集,全面助力企业打造更高精度、更强泛化能力的AI模型,应对全球用户多样化的语言与应用场景需求,为智能升级提供坚实数据支撑。
那么,高质量数据集到底藏着哪些“超能力”?
往民生看,医生有了“诊断助手”,通过使用AI辅助,为居民生成个性化健康建议;学校化身“智慧老师”,依托大模型技术,为每个学生精准画像,实现因材施教。
向产业瞧,工厂装上“火眼金睛”,自动化生产线如臂使指,次品率大幅下降;AI客服变成“贴心管家”,从“答非所问”到“精准回应”,让体验感进一步提升。
合肥市数据资源管理局相关负责人介绍,合肥将持续建设高质量数据集,为人工智能产业提供充足“养分”,从而进行不同场景的训练优化,推动大模型在千行百业落地应用。
释放动能:构建“智慧+”新图景
高质量数据集,如同流淌在城市脉络中的“智慧血液”,正深度融入合肥的产业肌理与生活场景。
走进合肥高新区,人工智能初创企业智象未来(合肥)信息技术有限公司(以下简称“智象未来”)正“挥舞”着多模态数据的“数字画笔”。这家全球领先的生成式AI创新企业,自主研发了超百亿参数的“智象多模态大模型”,依托行业中最丰富的多模态版权语料库,展现出强大的视觉内容生成与理解能力。作为首批完成“模型+算法”双备案的国产多模态大模型,它生成的视频内容逻辑严密、流畅自然、画质高清。
2025年4月,智象未来的开源图像生成模型HiDream-I1在24小时内登顶国际权威榜单Artificial Analysis,成为首款跻身全球第一梯队的中国自研生成式AI模型,一举刷新图像质量、语义理解与艺术表现三大维度纪录,这背后离不开高质量数据集的有效支撑。
在金融领域,高质量数据集又“扮演”成洞察风险的“智能雷达”。
合肥大智慧财汇数据科技有限公司深耕金融领域23年,拥有海量金融数据及企业数据资源。该公司以构建高质量数据集为核心,深度融合人工智能与大数据技术,自主研发企业图谱、风险传导模型等智能化分析工具,实现数据价值的深度挖掘与高效转化。其标杆产品“企业预警通”,通过实时追踪企业关联关系、舆情异动及监管信号,已为超200万金融从业者提供精准、及时的风险预警服务。
同时,在城市街头也有“数据身影”。合肥公安交警部门通过升级部署900万像素高清智能摄像头,将交通监管精度推向新高度。这些“鹰眼”不仅能精准识别车牌,更能清晰捕捉驾驶舱内细节——安全带是否系牢、有无驾车使用手机或抽烟等危险行为,尽收“眼”底。
合肥市公安局交通警察支队交通科研所副所长尹成胜说:“系统深度融合人脸识别技术,通过数据碰撞,可以快速确认驾驶员身份。这套覆盖汽车、非机动车等全出行工具的系统,如同一位不知疲倦的‘电子交警’,可以有效规范秩序,为市民出行织密安全防护网。”
聚力成势:打造数据产业新高地
去年5月,阿里研究院发布的《大模型训练数据白皮书》显示,互联网上中文语料和英文语料占比存在显著差异:在全球网站中,英文占比高达59.8%,而中文仅占1.3%。
“大模型是概率分布模型,其使用的数据来源分布将使得模型具备与之相似的人类意志。因此,在训练中融入更多中式价值观的内容,能让它更贴合中文使用者的文化底色与价值倾向,在全球化浪潮中守护文化的多样与独特。所以,构建高质量数据集意义非凡,也刻不容缓。”合肥市数据资源管理局资源处相关负责人说。
作为国家“数据要素×”三年行动计划的积极践行者,合肥先后打出《合肥数据标注产业发展规划(2025—2027 年)》《合肥市促进数商发展的指导意见》《深化数据领域综合改革推进城市化转型的实施意见》等政策“组合拳”,计划2025年结合人工智能等产业发展需要,组织推进人工智能、低空经济、交通物流、金融信息、公共安全、医疗教育等重点领域高质量数据集建设,全年打造不少于10个高质量数据集;到2027年,拉动标注产业规模突破30亿元,建成覆盖汽车、医疗、交通等领域不少于30个行业数据空间。
政策是方向,肯定强信心。近日,合肥市大数据行业党委联合市数据产业协会开展了行业评优评先活动,一批“数据要素×”领军企业、数据行业领军企业、高成长大数据企业和数据人才新星脱颖而出。
在合肥,创新活力奔涌,越来越多的科创新苗正拔节生长:飞数安徽针对多语种多模态科研数据获取难、高质量数据匮乏等问题,研发智能化生产工具,赋能跨学科科研创新;云智数界深耕文化创意领域,通过构建高质量文化创意数据集,推动数字文旅产业从传统业态向数字化、场景化、IP化转型升级;互联智库专注政务数据治理,整合近千万条标准化12345热线数据,提高政务服务响应效率......
截至目前,合肥市大数据企业达2246家,逐渐形成“多点开花、集群发展”的产业格局。随着政策红利持续释放、产学研协同不断深化、企业创新活力加速迸发,合肥必将在数字经济的浪潮中,刻下更鲜明的“印记”,让数据价值真正转化为发展动能、民生福祉。








