浙江在线8月13日讯(记者 何冬健 通讯员 肖乐 盛汪淼芷)眼下,以大模型为代表的人工智能技术,引发了新一轮科技发展浪潮。其中,与DeepSeek等擅长处理日常文字类任务的通用大模型不同,大科学模型瞄准处理各个科学领域的种种专业问题,正在引发科研范式和方法的革命。
当你想让人工智能写份工作总结,它大概率能轻松搞定;可要是问它 “蛋白质折叠的最低能量状态怎么算”,多数通用人工智能就只能支支吾吾了。
这就是当下人工智能领域的现实:通用大模型擅长处理日常文字类任务,像写讲话稿、整理会议纪要这类活儿,对它们来说不在话下。但面对专业的科学问题,它们就显得力不从心了。
与之不同的是,在之江实验室,由100多名计算专家组成的研究团队正聚力打造的科学基础模型,却瞄准了这些 “硬骨头”。它不仅能处理公式、分子结构、基因序列等复杂数据,更能像领域专家一样,循着科学逻辑找到答案。比如研究黑洞时,它会整合光学观测数据一步步推导可能的位置;探索疾病奥秘时,能从蛋白序列一路追溯到基因缺陷。
“这让人工智能模型从‘描述世界’跃升至真正‘理解科学’的崭新境界。”之江实验室相关科学家介绍。而这正是科学基础模型与通用模型最核心的区别。
不止“写文章”,更会“科学推理”
今年年初,名为Humanity’s Last Exam(人类最后一次考试)的大模型测试项目诞生。其包含2500个问题,由数百位领域专家开发,用于追寻人类知识推理的边界。这场“测试”显示,那些看似无所不能的通用大模型实际准确率最高的仅有25.4%(数据库更新时间为2025年4月3日)。
2020年,人工智能系统AlphaFold横空出世。在此之前,解析一个蛋白质的折叠结构堪称科研界的“马拉松”。之江实验室科学模型总体部技术总师薛贵荣亲眼见过同事在超算中心守了3个月,盯着屏幕上原子运动轨迹一点点收敛,最后得出的结构还得靠冷冻电镜反复验证。这个专业模型把整个过程压缩到了分钟级。薛贵荣突然意识到:人工智能不仅能“做题目”,还能像科学家一样“搞推理”。
STEM教育是美国首先提出的人才培养计划,旨在提升学生的科学(Science)、技术(Technology)、工程(Engineering)和数学(Mathematics)能力,并迅速成为知识经济时代人才培养的重要标准。
薛贵荣认为,科学基础模型的出现,将颠覆STEM模式。“伽利略有一个著名的论断——宇宙是一本用数学语言写成的‘宏伟之作’。在STEM中,‘M’其实是支撑‘STE’发展的重要工具。人工智能时代,我们认为数学、人工智能将共同推动‘STE’这三门学科的科研范式变革。”
过去,科学家80%的时间耗在查文献、算数据、分析推理上,只剩20%的精力思考核心问题;现在,模型可以接手这些繁琐工作。
中国科学院院士陈润生在接受媒体采访时,感触尤深,这位参与过中国人类基因组研究的科学家,将投身大模型研究视为自己人生第三次重要抉择:我的人生至此经历了三次抉择:第一次是给沃森写信,相信人类一定要破译遗传密码,此后参加了中国的人类基因组研究;第二次是对人类基因组序列组装后发现,编码蛋白质的基因组序列只占人类基因组的一小部分(不超过5%),从而率先开展了非编码研究;第三次,就是我最近参与学习、研究和推动的大模型。
尽管研发难度高、挑战大科学基础模型目前已经取得许多突破,并且已用于科研实践,在药物研发、材料科学、分子模拟、天气预报、流场预测等领域发挥作用。
日前,《北京市加快人工智能赋能科学研究高质量发展行动计划(2025—2027年)》正式发布,提出到2027年建成科学基础大模型。在浙江,科学基础模型作为重点,同样已提上日程。
如何从零开始打造一个前所未有的科学基础模型?薛贵荣最初也找不到突破口。但有一个问题显而易见:作为为科学家打造的模型,科学家到底需要什么?
团队作了一个决定,先从领域模型开始着手。“通过测试我们发现,通用模型在回答专业领域的问题时,表现并不好,无论是准确性,还是深度和广度。”于是,基于目前主流的几款通用大语言模型,团队打造了地学领域模型GeoGPT和天文领域模型OneAstronomy。
在打造GeoGPT的过程中,研发团队与美国普渡大学詹姆斯·奥格教授团队合作,共同攻克了全球权威巨著《无脊椎动物专著》的数据化难题。这部涵盖50卷、10万化石属的“数据金矿”,因纸质载体限制和复杂数据结构长期无法被有效利用。研究团队创新性地提出了“AI 批量抽取+专家验证+模型迭代”的协同技术路线:GeoGPT团队负责研发核心的自动化数据抽取引擎,实现了化石属名、地质年代、生物地理分布等关键信息的结构化转换;奥格教授团队则主导数据标准制定、结果验证及可交互数据库的构建。
团队仅用4个月便完成了3卷数千化石属的精准提取,时间成本降低75%。“GeoGPT将过去视为‘不可能’的化石大数据工程变为现实。”奥格教授摩挲着屏幕上自动生成的生物演化树,眼里闪着兴奋的光。基于当前成果,团队正规划将技术拓展至生物演化树等更高维度的图表数据挖掘领域,进一步推动古生物学研究的数字化转型。
在与领域科学家的不断交流碰撞中,需求不再脱钩,团队也锤炼出了将科学数据token化(即将连续文本、图像等数据分割为具有独立语义或功能的最小处理单元的过程)的能力。构建科学基础模型,似乎有了眉目。
从地基开始“造房子”
从领域模型到基础模型,科学数据是关键。
“科学模型本质上还是三件事,算力、token和深度学习架构,我们熟悉的AlphaFold、ChatGPT都是在这个框架下训练出来,还有很多人在用这样一个框架做很多其他类似的模型,比如说天气预报、基因模型、蛋白质模型。”薛贵荣想,科学不仅是用语言来表示的,还有很多是用公式、分子式、图像等等来表示的。之江实验室要做的就是,把所有这些科学数据全部token化,在一个模型框架里面训练。
“现在的AlphaFold已经到了第三代,把token化对象从蛋白质扩展到了DNA、RNA、小分子配体、抗体,尽管它们的表达都不一样,但将它们token化之后,就可以放在同一个空间下去训练,所以AlphaFold不仅仅能够高精度地预测蛋白质结构,同时也可以预测其他生物分子形成的复杂结构。”薛贵荣表示,“这个时候模型的魅力就出来了。”
把基因序列、蛋白质结构、天文数据、材料分子结构等科学知识都变成统一的“数据语言”,放进一个模型里。这个看起来略显疯狂的想法,让这群计算专家度过了无数通宵达旦的日子,实验室的科学基础模型021 Large Science Model(简称“021 LSM”)逐步有了雏形。
融入天文、地学、数学、物理、化学、生物等多学科的科学数据,科学基础模型相当于从地基开始“造房子”。
2024年,之江实验室与国家科技图书文献中心(NSTL)签订了“共建科技语料库战略合作框架协议”。基于该中心文献,团队构建了科学文献语料处理流水线,表格、图像及学科标签均被精准解析,确保“喂”给模型的都是科研精华。
2025年初,021 LSM正式启动覆盖174个学科的科学语料生产计划,由具备相关学科专业背景的科研人员对34万个网站开展系统性质量评估,确保语料在准确性、专业性等方面达到高标准要求。
在GeoGPT的研究中,为了让模型“学透”地学,团队与国内外25家机构、400余位地学专家共建全球最专业的地学领域数据集,覆盖8个地学二级学科。与此同时,之江实验室还通过与中国科学院国家天文台共同举办大模型种子班等方式,推动天文专业数据和人工智能算法深度融合,进一步提升模型语料的科学密度。
021 LSM没有在现有通用基础模型上“搭房子”,而是“从0到1”打地基“建房子”。这极具挑战。
“基础模型决定了模型能级的上限。”薛贵荣感叹,“就好比1升的瓶子装不下3升的水,在他人的通用模型的框架里做研究就很难有所突破。”
目前,021 LSM模型训练流程每个阶段都可能耗时数月。让人工智能模型从“描述世界”跃升至真正“理解科学”的崭新境界,团队正跋涉在一条前人未至之路上。
让世界换一种玩法
今年6月,021 LSM作为一名浙江的虚拟考生参与了全国高考。满分150的全国新高考Ⅰ卷,它能考143分。它还有“成长空间”——针对几何类的题目,人类使用视觉的辅助线可以高效快速地解决问题,但是若使用纯文字的解法需要更多的逻辑推理。
8月,021 LSM亮相2025年人工智能向善全球峰会,吸引了全球参观者的目光,大家对这个“理科生”模型感到好奇——它与通用大语言模型究竟有什么不同,非英语母语者能否用它来解决科研问题?
了解科学家的共性、加深对科学问题的理解、覆盖更系统全面的科学领域知识……“还有太多太多的科学问题等待着我们去发现和解决。”薛贵荣感慨。
中国工程院院士、之江实验室主任王坚曾说:“基础模型是人工智能的皇冠,是人工智能发展的技术底座。”基础模型突破带来的将是巨大的想象空间。
“或许以后能发一个火箭派一堆机器人去外太空做实验。”薛贵荣畅想,“只要有电的地方,人工智能就能工作,地底下也是一样。机器人就能够完成一系列的科学实验。而人作为指挥者,要思考的是未来的问题。”
这并非空想。王坚近期在接受媒体采访时分享了一位美国高中生发现未知天体的故事:马特奥·帕兹是一名18岁的美国高中生,他借助人工智能技术,在美国航空航天局积累的2000亿条观测数据中,发现了150万个此前未被发现的天体。那些藏在数据洪流里的异常信号,曾让专业团队望而却步,却被模型敏锐捕捉——这恰是科学基础模型的神奇之处:它能让人类突破专业壁垒与认知边界,实现从前不敢想象的科学发现,即便发现者并非该领域的科研工作者,也能叩开未知世界的大门。
现在,之江实验室太空计算星座已经能让人工智能直接在轨处理遥感数据,不用把图片传回地球。深地探测、新药研发……未来,这些曾依赖“人海战术”的领域,或许会因为科学基础模型的加入而加速突破。而当科学基础模型深度嵌入材料、生物等产业创新链条,高效调用、深度分析海量科学知识和数据背后的联系,或许将从根本上重塑产业发展格局。
就像望远镜延伸了人类的视野、显微镜扩大了人类的微观世界,科学基础模型正在延伸人类的“思维”。它不是要取代科学家,而是要成为那个“最懂科学家”的搭档——帮你算公式、画图纸、找规律,让人类能更自由地探索那些“想都不敢想”的未知。
就像薛贵荣在采访的尾声,俏皮的那一下:“让世界换一种玩法,还挺有趣的。”










