AI for Science
在人工智能不断突破自我极限的今天,我们不仅仅是见证者,更是受益者。AI的未来将远超我们的想象,从诗词创作到科学突破,人工智能正在深刻地改变着我们的世界。接下来,我们一起探索人工智能如何重塑科学研究的方式,助力科学家解决复杂问题,推动科学发现和创新。
AI的应用可以很具体,比如有AlphaGo学下围棋,实现了AI在最复杂棋类对弈中战胜人类;还有AlphaGeometry能证明几何题,AI解题水平接近人类奥林匹克金牌得主。
AI在科学领域的应用却很抽象,比如有AlphaFold可以预测蛋白质的折叠结构,通过AI解决了生物学50年来的难题;还有运用AI的深度学习方法,对斯隆数字巡天天文望远镜释放的类星体光谱数据进行微弱信号搜寻和数据分析,从而发现了中性碳吸收体,为探索星系如何形成和演化提供了新的研究方式。
1. 科学研究的范式
科学寻求的是关于世界及其运行规律的知识。我们熟知的数学是研究数量、结构、变化、空间以及信息等概念的一门学科;物理学是研究大自然现象及规律的学问;生物学也叫生命科学,广泛研究生命的所有方面。科学诞生2000多年以来,人类对于世界的认识不断进步。科学所带来的一系列发明和发现,极大地改变了我们的社会,包括疾病的治愈,手机、互联网的发明,以及太空火箭的出现等。
1.1 科学研究的四个范式
我们现在经常听说“范式”这个词,它是由英国物理学家托马斯·库恩在他的经典著作《科学革命的结构》中首次提出。在科学界,范式是指在某个时期内最有权威性和影响力的理论框架。图灵奖得主詹姆斯·格雷在《第四范式》这本书里提出科学研究的发展可以划分为四个主要范式,每个范式都代表了科学探索和发现的新方法。
第一范式是实验科学,是传统的科学研究方法,通过设计实验、收集数据来验证假设。这个范式强调可重复性和可验证性,是科学研究的基础。 第二范式是理论科学,这个阶段的科学研究更注重于利用数学模型和公式来解释和预测自然现象,例如牛顿三定律、麦克斯韦方程组和爱因斯坦的相对论等。 第三范式是计算科学,随着计算机技术的发展,科学家们能够通过计算机对复杂现象进行模拟仿真,推演出越来越多复杂的现象,计算科学使得对气候变化、分子动力学和天体物理等复杂系统的研究成为可能。 第四范式是数据驱动的科学,又称大数据科学,通过数据挖掘、机器学习和人工智能等技术,从海量数据中发现规律和知识,第四范式更加注重数据驱动,而不是理论驱动。 随着数据规模的爆炸式增长和问题复杂性的提升,上述四个范式难以应对。第五范式,也就是AI for Science应运而生,为解决这些挑战提供了强大支持。
1.2 科学研究的新范式(AI for Science)
科学发现是一个多方面的过程,包括数据收集和分析、假设形成以及实验设计等多个相互关联的阶段。AI for Science通过增强和加速这一过程中每个阶段的研究,在科学发现中发挥重要作用。它融合了前四个范式的特点,包括第一范式的实验观测和第二范式的理论指导,以及第三范式的数值模拟,然后通过第四范式的机器学习进行智能驱动。
Nature在2023年8月发表的《人工智能时代的科学发现》一文,回顾了近年来 AI 对科学研究的革命性影响。分别总结了AI辅助的科研数据收集与整理、学习科学数据的有意义的表示、基于AI的科学假设生成以及AI驱动的实验和模拟四个方面,具体如下:
AI在科研数据收集与整理方面,能够辅助科研数据选择、数据标注、数据生成和数据改进。 AI深度学习方法可以在不同的抽象层次上提取科学数据的有意义的表示。 可检验的科学假设是科学发现的核心,AI可以提供有价值的待检验的科学假设。 AI驱动的实验和模拟,可以堪比实验的准确性和计算机模拟的速度。
2. AI for Science加速科学研究实例
AI for Science标志着科学研究进入了一个智能化的新阶段。通过利用AI技术,科学家能够更高效地处理复杂问题,进一步推动科学发现和创新。接下来,我们介绍三个具体AI for Science在生物学、物理以及数学领域的实例。
2.1 AI for Science加速生物学研究
蛋白质对于生命至关重要,几乎可以支持 其 所有功能,它们是大型复杂分子,蛋白质的具体作用很大程度上取决于其独特的3D造型结构。比如血红蛋白这种结构,非常容易与血红素结合从而能够携带养分,它的结构是怎样形成的呢?根据我们学的生物知识,DNA经转录成为RNA,RNA再翻译成氨基酸序列,氨基酸序列最终经过折叠,形成稳定的三维结构,氨基酸序列已经能够决定折叠后的蛋白质结构,所以可以从氨基酸序列直接预测出最终的结构,这个预测就是蛋白质折叠问题。它对于科学家研究药物发现、了解基因变异的影响、对蛋白质相互作用建模,以及人工合成蛋白质等工作都有非常重要的意义。
在问题提出后的50多年时间里,科学家们一直在进行探索。研究出了X射线晶体分析法、核磁共振谱仪、冷冻电镜术,但这几个方法耗时长、成本高。蛋白质结构预测进展非常缓慢。人体总共有2亿多个蛋白质,但到2020年,人类只掌握了其中几十万个蛋白质的结构。 两年一次的蛋白质结构预测挑战赛CASP,旨在推动全球的蛋白质结构预测,而这一挑战赛在2020年被DeepMind公司的AI系统AlphaFold2终结。
AlphaFold2使用世界各地科学家们辛苦解析出来的几十万种蛋白质的序列和结构来训练该系统。它是一个端到端的神经网络结构,采用了基于注意力机制的方案,注意力机制是像ChatGPT这样的主流AI模型也在使用的方案。现在,它能够根据氨基酸序列自动准确的预测蛋白质的结构。
2024年5月新一代AlphaFold3问世,使用AI革命最核心的组合架构—Transformer+Diffusion。如果说AlphaFold2是停留在预测蛋白质的宇宙中,那么升级后的AlphaFold3能够以前所未有的原子精度,预测出所有生物分子的结构和相互作用。 同时DeepMind还推出了免费研究平台AlphaFold Server,供全球科学家非商业化研究。只需点击几下,就可以利用AlphaFold 3在10分钟内预测分子结构。
AlphaFold的故事是人工智能如何与人类智慧相结合,共同推动科学进步的一个生动例证。
2.2 AI for Science加速物理研究
流体力学是研究 流动物体 运动规律的科学。通过应用流体力学原理,大气科学能够精确模拟大气行为,为天气预测提供科学依据。可以通过大气方程来描述流动大气的具体表现。
所谓天气预报,就是知道现在的天气,找到其演化规律,预测未来的。大气主要就几个参数,密度、压力、温度、湿度和风速,找到描述它们关系的方程,求出和时间相关的解,就可以预测天气。
大气学家首先找出状态方程,它描述的是气体密度、气压和温度的关系,而热力学和水汽方程,则包含了湿度、压力和温度,连续方程告诉我们质量守恒,最重要的是基于流体力学纳维-斯托克斯方程的运动方程,将流体假设成一个个微团,然后做受力分析,它受重力、其他微团给它的压力、粘性力,大气存在于地球表面,还需要考虑地球自转引起的惯性力科里奥利力,这是个矢量公式,同时描述了三个方向,拆成三个方向独立公式,一共7个方程,共同描述7个物理量,构成了大气运动的基本方程组。这7个方程里,有6个是偏微分方程,其中5个还是非线性方程,但是非线性偏微分的求解至今仍是公认的数学难题。
在人工智能踏入之前,要求解偏微分方程,采用的是数值模拟的方法,对于天气来说就是数值天气预报,需要先将大气离散化,也就是按经纬度把空间划分成一个个网格,方程组经过推导可以转换成差分方程,知道初始时刻的数据,迭代计算未来所有时刻的天气。1950,美国气象学家查尼花了24小时成功预测了24小时后的天气。
为什么需要这么长时间?非线性方程无法直接求解,于是数值模拟先将其简化成线性方程,而这个过程非常繁琐并且计算量极大。数值天气预报的计算量有多大?以欧洲气象中心的预报系统IFS为例,从2020年起,全球被划分为9公里的网格,同时每个网格垂直有137层,这样就有9亿个要预测的点,时间间隔10分钟,预测未来10天的天气,还需要迭代1440次,每一次迭代计算的公式也并不简单,直接就是计算量爆炸。要想获得更准确的天气预报,网格点要更细,层数也要更多。所以,欧洲气象中心104万核的超算,要耗费3小时来预测天气。
面对这个问题,AI采取了另一个思路,只要神经网络足够多,就可以拟合出这世上任何一个复杂函数(原素材,注意1080)。在2022年3月,英伟达发布了首个全球AI气象模型FourCastNet,效果十分震撼,仅7秒就完成了24小时的预报,比数值预报快了几个量级。它将地球的球形网格看作图像中的小patch,借鉴计算机视觉中的Transformer模型完成天气预测任务。但它有个遗憾,准确度不够。
2022年11月,华为发布盘古气象大模型,它不仅在速度上超越FourCastNet,准确度也历史首次超过数值天气预报,盘古和FourCastNet最大的区别,在于盘古采用了与现实大气一致的三维模型,并采用层次化时间聚合策略。在训练了过去四十年高达200TB的数据后,盘古终于首次超越了目前最好的数值预报系统。
不仅是大气方程,海浪模拟的缓坡方程、描述期权价格的布莱克-舒尔斯方程,以及描述超导现象的金兹堡-朗道方程全是非线性方程,这个世界本就是非线性的。
2.3 AI for Science加速数学研究
我们看看AI如何协助数学家探索纯数学之美。
一个多世纪前,被称为“印度之子”的拉马努金 (Srinivasa Ramanujan)凭借其非凡的能力震惊了数学界,他能够从数字中发现其他人无法发现的惊人模式。他一生中提出了大量公式,但许多缺乏严谨的证明,因此被称为“猜想”,而许多猜想后来都被证明是正确的。拉马努金将这些见解描述为直觉和灵性,他的这种天才的直觉一直引领着后来的数学家,挖掘出了更深层的数学规律。
人工智能技术在纯数学研究中也取得显著成果。数学家联手AI从零开始提出并证明重要猜想,人工智能正在进入纯数学研究的前沿。人工智能通过训练一个机器学习模型来估计假设函数f在特定数据分布Pz上的值,帮助指导数学家的直觉。这个流程包括由数学家完成的函数假设、推测候选函数和证明定理,以及由计算完成的生成数据、训练模型和通过归因发现规律。
以人工智能在拓扑学领域的新发现为例。结(knot)是低维拓扑中的基本对象之一。它是嵌入在三维空间中的扭曲环。由于结(knot)普遍存在于自然界和人造物中,包括生物体的DNA、植物的藤蔓、航海和登山中的绳索以及纺织物中的纱线,那么结的几何形状能告诉我们关于代数的什么信息吗?
经过数据训练的机器学习模型揭示了一个特定的代数量signature,这个量与结点的几何形状直接相关,这是目前理论所不知道的。通过使用机器学习中的归因技术,数学家发现了一个新量:自然斜率,它是一直被忽视的一个重要几何结构描述。
与此同时,AlphaTensor系统也为一个50年来的数学问题找到了新答案:两个矩阵相乘的最快计算方法。
矩阵乘法应用于计算机图形、神经网络、量子物理等各种领域,研究人员一直在寻找更高效的矩阵乘法算法。
1969年德国数学家 沃尔克·施特拉森发现了一种新的二乘二矩阵乘法算法,与原始的八步乘法相比只需要七步乘法,这个改进看起来微不足道,而且新的加法步骤看起来更复杂,但该算法在处理更大矩阵时能够显著节省计算。
比如,将该算法应用于八乘八矩阵时,与标准算法相比,乘法步骤减少了三分之一。
直到2022年10月,随着AI技术的发展,该问题才得以进一步优化,AlphaTensor 使用了一种称为强化学习的技术进行训练,这种方法类似于玩游戏。强化学习通过在AI系统对完成给定任务的不同方式进行惩罚和奖励,驱动程序朝着最佳解决方案前进。
最终,AlphaTensor一共改进了70多种不同大小矩阵的计算方法。
想象一下,未来的数学家们在AI的辅助下,能够更深入地探索数学的边界,解决那些曾经被认为是不可能的问题,这是多么令人兴奋的事情!
3. 总结与展望
同学们对AI如何助力科学发现有了一个初步的了解,那么有没有想要跃跃欲试呢?接下来给大家介绍一个可以自己动手参与的平台。
Kaggle是一个以数据科学竞赛和协作为主题的在线平台(https://www.kaggle.com/),它提供了各种数据科学竞赛和大量的开放数据集供用户参与和使用,无论是新手还是经验丰富的数据科学家,都能在 Kaggle 找到适合自己的项目和学习资源。
在这里介绍Kaggle上的两个比赛,一个是使用AI的大气物理挑战赛LEAP,用于模拟多尺度气候模型。另一个是使用AI预测小分子 与 特定蛋白质靶标 的 结合亲和力,从而预测新的药物。这两个比赛都是利用AI技术,帮助科学家更高效地处理复杂科学问题。
人工智能正在引领一场深刻的科技革命和社会变革,对人类的生产、生活产生了全方位的改变。
AI开创科学探索的新时代,同学们要努力成为 AI 时代的科技新生力量,回答“强国有我、复兴看我”这一历史性命题,用 AI 武装头脑,勇立科技创新发展的潮头,用科学改变世界。
互动问题:
- 如何将AI技术应用到自己感兴趣的科学问题上?
- 如何看待多学科的学习和融合,比如AI和数学,AI和物理以及AI和生物学等?