取消
搜索历史
热搜词
原创
活动
转型理念
ENI专访
当前位置:首页 >文章发布 > 正文
上交设计AI模型将分子动力学计算提升100倍,有望用于药物研发
来源:DeepTech深科技  作者: 何晨龙 2024-07-17 09:53:42
近期,上海交通大学人工智能与微结构实验室通过引入生成人工智能中的 Transformer 算法,提出了人工智能模型 T-AIMD,为分子动力学长期以来的计算耗时问题提供解决方案。

近期,上海交通大学人工智能与微结构实验室通过引入生成人工智能中的 Transformer 算法,提出了人工智能模型 T-AIMD,为分子动力学长期以来的计算耗时问题提供解决方案。

T-AIMD 模型结合了序列特征和物理描述符(如电荷、温度等),通过这种方式,模型不仅学习序列的动态特性,还融入了物质的静态属性,从而提高了模型的泛化能力和预测的准确性。

此外,该模型利用高性能计算资源支持深度学习模型的训练和运算,通过智能算法优化计算过程,实现快速准确的物质特性预测。

以一个包含 100 个原子的材料系统为例,如果需要进行 30 皮秒的从头算分子动力学(AIMD,ab initio Molecular Dynamics,也称第一性原理分子动力学)模拟,需要在高性能中央处理器(CPU,Central Processing Unit)计算机上运行两到三个月。

而 T-AIMD 方法通过学习原子长距离扩散行为,可在极短时间内预测任何离子在任何晶体结构中的离子导电性,从而实现在至少 100 倍的速度加速离子导电性的计算。

通过结合机器学习算法和深度学习网络,T-AIMD 能够从小范围的序列数据中预测整个 AIMD 模拟的结果,极大地缩短实验周期,加速材料科学和生物科学的发展。

T-AIMD 模型能够应用于材料领域。不局限于特定类型的材料或结构,可以广泛应用于各种离子导体的研究,包括锂离子、镁离子离子导体等。

当把 T-AIMD 拓展到分子动力学(MD,Molecular Dynamics)领域,则在各种生物蛋白体系中具有应用潜力,例如药物研发、蛋白质结构预测、细胞分子动力学、生物大分子复合体等。

日前,相关论文以《变压器使固体电解质的离子传输行为演化和电导率调节》(Transformer enables ion transport behavior evolution and conductivity regulation for solid electrolyte)为题,发表在 Energy Storage Materials(IF 18.9)上[1]。

上海交通大学博士研究生陶科豪是第一作者,李金金教授担任通讯作者。

近年来,高性能生成式算法的出现代表了生成人工智能(GAI,Generative artificial intelligence)的发展高峰。在许多领域,生成方法已经逐渐从随机生成过渡到目标生成,GAI 的成熟极大地促进了基础学科的发展。

同时,生成式预训练变压器(GPT,Generative Pre-Trained Transformer)的出现,为解决材料科学中的许多问题带来新的曙光。

最近热门的 ChatGPT 中的“T”,即代表变压器(Transformer)。Transformer 由于自注意力机制、并行计算和位置编码的优势,几乎在各个方面都击败了传统的序列神经网络。

MD 和 AIMD 是研究人员分析体系运动行为,解决体系结构、性质、反应机制、分子相互作用等问题必不可少的方法,广泛应用在材料科学、生物科学、化学等领域。

AIMD 的优点是能提供高精度的模拟结果。在 AIMD 模拟中,每个原子的位置和速度随时间演化,这些信息可用来计算物质的物理和化学属性,如离子导电率。

但不可忽视的是,其缺点是计算耗时高、模拟成本高,尤其是对于大系统和长时间尺度的模拟。几十年来,该问题一直困扰着科研人员,也制约了对新材料的研发和生命分子的探索。

为解决上述问题,研究人员想到,或许可尝试引入 GAI 中的 Transformer 算法。

Transformer 广泛应用于处理序列数据,如文本或时间序列,其核心是自注意力机制。

李金金解释说道:“Transformer 非常适合处理长序列和捕获长期依赖关系,这一点在 AIMD 序列的前后联系中尤为重要。”

在 T-AIMD 模型中,Transformer 被用来学习和预测原子在固态电解质中的扩散行为。

具体来说,模型首先从少量的 AIMD 模拟数据中学习原子的扩散模式。然后,利用这些学习到的模式,来预测更长时间尺度上的原子扩散行为。

该方法的核心优势在于,结合了 AIMD 的精确性和 Transformer 的高效率和强大的序列处理能力。T-AIMD 使用数据驱动方法,依赖于大量的训练数据来优化模型参数。

“通过这种方式,模型能够捕获复杂的物理过程,并快速预测未知条件下的行为,对于加速材料开发和应用至关重要。”李金金表示。

该研究的探索过程中,在大规模数据处理与特征提取、模型的训练和优化、多源数据融合、模型验证与实验对比等多方面存在挑战。

AIMD 模拟产生的数据量庞大,且数据的时间序列特性要求模型能够有效捕获时间依赖性。因此,如何从原始的分子动力学数据中提取有用的特征是挑战之一。

研究人员采用 Transformer 架构处理序列数据,利用其自注意力机制来捕捉长期依赖关系。“我们通过设计专业数据预处理流程,包括数据归一化和时间窗口划分,来确保输入数据的质量和模型训练的效率。”李金金说。

另一方面,深度学习模型特别是基于 Transformer 的模型在训练时,对计算资源的需求极高,且容易过拟合。

研究人员通过在高性能计算平台并行训练模型,来解决资源需求的问题。为了防止过拟合,他们采用正则化技术,如 dropout 和 L2 正则化。此外,还使用了多种优化算法,以提高模型的收敛速度和稳定性。

该研究中的难题还体现在融合数据,T-AIMD 需要处理来自不同源的数据(如序列特征和材料描述符),而这些数据的维度和性质差异较大。

针对此,他们开发了一种混合特征提取框架,该框架能够同时处理时间序列数据和静态材料属性。通过设计融合层来整合这些不同的特征,并通过实验评估不同融合策略的效果,以优化模型的预测能力。

此外,与实际实验结果进行对比,验证 T-AIMD 模型的预测结果的准确性十分关键,这要求高度精确的实验设计和数据收集。该实验室与清华大学的研究人员合作,进行了系列固态电解质材料的实验验证。

通过对比模型预测的电导率与实验测量值,不断调整和优化模型参数。与此同时,他们还利用已发布的文献数据,进一步验证模型的泛化能力。

不同于有机材料,李金金实验室现在做的晶体结构很难进行有效编码,用传统的计算机语言难以体现出晶体材料的重要性质,这也是限制大语言模型和生成式人工智能在晶体材料上应用的重要原因之一。

因此,他们计划接下来在 T-AIMD 的基础上进一步探索,根据特定的应用需求定向设计材料的分子结构。

通过机器学习和人工智能算法的优化,使模型能够基于目标功能(如离子导电性、热稳定性、机械强度等材料属性),逆向推导出最优的材料结构。这种根据特定功能定向生成材料的大模型,为新材料的研发指明了方向。

李金金在上海交通大学攻读物理学博士学位,在美国伊利诺伊大学厄巴纳-香槟分校从事博士后研究后,作为研究员任职于美国加州大学圣巴巴拉分校。

随着人工智能的发展与政策支持,她回到上海交通大学成立上海交通大学人工智能与微结构实验室(AIMS-Lab,Artificial Intelligence and Micro-Structure Laboratory),并担任实验室主任,博士生导师。

该实验室的 AI for Science 主要面向人工智能材料信息学与人工智能生命信息学。近年来,发展了人工智能材料信息学研发平台 AlphaMat,以及针对生物分子设计与发现的人工智能平台 AlphaBio。

AlphaMat 平台是连接人工智能与材料科学的桥梁,截至目前已集成超过 50 个 AI 模型、200 多个材料数据后处理和分析工具、上百万专有材料属性数据库,可预测超过 15 种材料属性(包括形成能、带隙、离子电导率、磁性、体积模量等)[1-6]。

并且,即便没有编程经验的用户也能便利地使用该平台。基于该软件,该实验室在锂电池电极材料、固态电解质、钙钛矿材料、催化材料等多个二维/三维体系中,已累积发现上百种新材料。

在生命科学领域,该实验室开发了独有的 AI 蛋白质大模型与专精模型协同进化平台 AlphaBio。

以 AlphaBio 大模型为基底,预训练后赋能下游近百个专业 AI 模型,包括 AI 蛋白质功能预测模型、AI 蛋白质折叠突变预测模型、AI 酶制剂改造算法、AI 力场开发算法等[7-10]。

AlphaBio 推动着生命科学领域的 AI 垂直落地应用,在药物研发、蛋白质结构/功能预测、细胞分子动力学、生物大分子复合体解析中可发挥重要作用。

之所以选择回国发展,与李金金对国家和行业发展的分析和预判密不可分。她说:“中国与美国在算力、数据方面存在差距。”

美国的优势在于,能够拥有更多的图形处理器(GPU,Graphics Processing Unit)芯片、更多的算力,来发展包括 AI 通用文本/视频/图像在内的大模型。并且,能够方便地获取来自世界各地庞大的互联网数据,特别是英文数据总量远远大于中文数据。

“而中国的优势也非常突出,很多中国科学研究组都在开发高性能的算法,力求在算力不足的情况下,通过算法创新实现 AI 高性能的快速预测。例如在这次新研究中,我们就是通过 Transformer 算法将分子动力学模拟提升上百倍。”李金金表示。

此外,中国拥有强大的实体经济、通信、基建、轻工业、重工业等,每个企业、每个团队都有私有数据,且这些数据是非公开的。

虽然不能训练类似 GPT 的大模型,但随着越来越多的企业打造自己的专业模型,届时这些数据有望发挥巨大的作用,真正地将 AI 转化成新质生产力。

李金金指出,当把实体经济的数据、行业经验、应用场景和 AI 结合起来,就会给生产效率带来巨大的提升,反过来也会对 AI 技术形成巨大的牵引力。人工智能的下半场比的不是 AI,而是“AI+”中的加号,中国的主场优势才刚刚开始。

据介绍,目前该实验室已与相关企业紧密合作,通过 AI 材料设计和 AI 生命设计赋能工业大生产,以优化工业生产流程、降本增效。

展望 AI 与更多学科的发展,李金金表示,未来,量子计算与 AI 的结合有望解决传统计算无法处理的复杂系统模拟问题,从而开启科学研究的新篇章。

免责声明:本文系网络转载,版权归原作者所有。本文所用图片、文字如涉及作品版权问题,请联系删除!本文内容为原作者观点,并不代表本网站观点。
编辑:乔帅臣
关键词:   AI  大模型  T-AIMD 
活动 直播间  | CIO智行社

分享到微信 ×

打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。

Baidu
map