机器学习驱动的量子力学与密度泛函模型研究

 

 

简介及概览

AISI电子结构团队是国内外致力于开发以周期性密度泛函理论计算软件为代表的一系列人工智能辅助增强电子结构算法的先行团队之一。目前在研的 ABACUS 密度泛函理论软件是由何力新教授、任新国研究员和陈默涵研究员主导开发的,拥有完全自主知识产权的一款国产开源的密度泛函理论软件。ABACUS可采用平面波基矢量和数值原子轨道基矢量来进行模拟计算,其特色的数值原子轨道基矢应对大体系具有显著的效率优势。

在AISI电子结构团队的努力下,ABACUS正在发展基于机器学习辅助的泛函模型 DeePKS,为实现跨尺度的分子动力学模拟提供了强有力的基石。此外,团队成员还在发展适用于多场景的密度泛函理论(如适用于大尺度计算的无轨道密度泛函理论和适用于高温高压条件的随机波函数密度泛函理论)。未来,电子结构团队将结合DeepModeling社区中的各种开源工具,将第一性原理方法打造成为解决实际材料问题的更准确更高效的软件工具,继续推动科学计算方法应用于工业领域,让科学理念更深入地走入社会。

相关研究及特色成果

周期性密度泛函软件ABACUS

ABACUS软件与当前流行的其他DFT软件相比,有一显著的特征是同时支持平面波(Plane-wave,简称PW)和数值原子轨道(Numerical Atomic Orbitals)两种基矢量。其中,该程序创新性地通过利用溢出函数(Spillage Function)来构造数值原子轨道,有效地提高了计算的精度和可移植性,并在复杂大体系(例如大于5000个原子的转角石墨烯系统)的模拟中表现出高精度和高效率。

基于ABACUS中的数值原子轨道基组,我们还加入了计算电子相对论效应的自旋轨道耦合功能、计算拓扑效应的贝里曲率功能、计算强关联效应的DFT+U功能、杂化密度泛函、含时密度泛函理论、基于机器学习的交换关联泛函、GPU加速模块等。作为DFT软件主要的功能业已完善,还有更多新功能和新方法正在开发完善过程中,我们将在后续的报道中依次介绍相关进展。

作为采用C++编写的一款DFT软件,ABACUS模块化较清晰,加上具备较完善的自动测试集,进一步的功能开发和性能优化都较为便利。ABACUS采取了依据LGPL协议的开源合作的开发方式,加入了DeepModeling社区。目前已参与的开发者主要来自中科大、北大、中科院物理所、深势科技、字节跳动等单位,并期待更多的开发者加入。

针对周期性体系机器学习驱动泛函模型DeePKS的开发及应用

近些年来,机器学习势函数的发展极大推动了分子模拟领域的研究,使得针对大体系的高精度性质预测成为可能。然而,机器学习势函数的训练首先需要生成大量的第一性原理计算数据,对于精度要求很高的场景(如Quantum Monte-Carlo、杂化密度泛函等),生成这些数据会耗费极大甚至难以负担的计算资源。DeePKS泛函模型的研发能够有效解决这一计算瓶颈问题,构建第一性原理计算与机器学习势函数之间的桥梁,显著提升动力学模拟在规模、精度等方面的天花板。我们将此前针对分子体系的DeePKS理论拓展到了周期性体系,并基于ABACUS→DeePKS-kit→DeePMD-kit的纯开源框架验证了DeePKS模型桥联第一性原理数据及机器学习势函数的可行性。

可以看到,DeePKS模型的所需的训练集大小要远小于DeePMD的训练集。对于64个水分子的训练曲线,DeePKS模型仅需不足200帧的训练数据便可超越DeePMD 1000帧数据的训练精度,同时具备更好的泛化能力。带入到分子模拟场景中,原本需要生产上千个高精度数据的工作量将由一百个左右的高精度计算以及DeePKS模型计算替代,预计能够节省一个数量级的时间成本。其精度可由DeePKS-DeePMD模拟的统计学结果验证——DeePKS-DeePMD给出的径向分布函数和角度分布函数均与目标方法SCAN0-DeePMD吻合极好。

针对周期性体系机器学习驱动泛函模型DeePKS的开发及应用

近些年来,机器学习势函数的发展极大推动了分子模拟领域的研究,使得针对大体系的高精度性质预测成为可能。然而,机器学习势函数的训练首先需要生成大量的第一性原理计算数据,对于精度要求很高的场景(如Quantum Monte-Carlo、杂化密度泛函等),生成这些数据会耗费极大甚至难以负担的计算资源。DeePKS泛函模型的研发能够有效解决这一计算瓶颈问题,构建第一性原理计算与机器学习势函数之间的桥梁,显著提升动力学模拟在规模、精度等方面的天花板。我们将此前针对分子体系的DeePKS理论拓展到了周期性体系,并基于ABACUS→DeePKS-kit→DeePMD-kit的纯开源框架验证了DeePKS模型桥联第一性原理数据及机器学习势函数的可行性。

可以看到,DeePKS模型的所需的训练集大小要远小于DeePMD的训练集。对于64个水分子的训练曲线,DeePKS模型仅需不足200帧的训练数据便可超越DeePMD1000帧数据的训练精度,同时具备更好的泛化能力。带入到分子模拟场景中,原本需要生产上千个高精度数据的工作量将由一百个左右的高精度计算以及DeePKS模型计算替代,预计能够节省一个数量级的时间成本。其精度可由DeePKS-DeePMD模拟的统计学结果验证——DeePKS-DeePMD给出的镜像分布函数和角度分布函数均与目标方法SCAN0-DeePMD吻合极好。

关于我们

重要研究方向

大事记

开源社区

核心团队

加入我们

联系我们

地址:北京市海淀区成府路150号

邮箱 : cooperation@bjaisi.com