生成式人工智能的核心技术是生成模型。生成模型能够学习数据背后的概率分布,并通过采样生成新颖而自然的样本。若能为无机晶体构建合适的生成模型,将有望为材料发现与设计带来变革。然而,晶体材料作为特殊的数据模态,天然蕴含着对称性先验,因此无法直接照搬语言或图像领域的方案。自然界偏好对称的结构,这种偏好由空间群对称性严格刻画。事实上,自然界准备了两张“表”——化学元素周期表和空间群的Wyckoff位置表。要构建某种晶体,只需从元素周期表中选择原子,并依次放置在Wyckoff位置上。由此,晶体呈现出“意料之外、情理之中”的序列化表示。
近期,中国科学院物理研究所/北京凝聚态物理国家研究中心与吉林大学合作,开发出基于空间群对称性设计的自回归晶体生成模型CrystalFormer。CrystalFormer的核心思想是,通过对晶体数据库的学习,压缩内化固体化学规律,并以序列化方式生成晶体的Wyckoff占位与晶格参数,从而构造新的晶体结构。CrystalFormer以神经网络参数表达固体化学知识,以网络激活体现材料空间中的联想能力,并以概率模型的似然函数承载化学直觉,探索那些“自然界可能存在、但尚未被发现”的晶体材料。
CrystalFormer是专门讲述晶体原生对称性语言的生成模型。CrystalFormer不依赖于势能面优化,而是直接在对称性约束下“猜测”合理的晶体结构,因此CrystalFormer不同于机器学习力场。在实际应用中,CrystalFormer既可以无约束地探索整个材料空间,也可以针对性地产生具有特定结构特征的晶体材料。同时,通过与性质预测模型即插即用式的结合,CrystalFormer能够实现基于贝叶斯公式的材料反向设计。
CrystalFormer将晶体材料中的数学对称性与化学直觉统一在简洁、通用且灵活的生成模型框架中,为未来的晶体材料设计与发现提供了适配性工具。
相关研究成果发表在《科学通报》(Science Bulletin)上。研究工作得到国家自然科学基金和中国科学院战略性先导科技专项等的支持。
论文链接
基于JAX的开源代码实现和应用示例
融合空间群对称性的晶体生成模型