文献笔记:机器学习在材料信息学中的应用与展望

时间:2024-04-14 18:59:39

 


原文链接 : https://www.nature.com/articles/s41524-017-0056-5


 

部分由材料基因组计划推动,部分由算法发展和其他领域数据驱动努力的巨大成功推动,信息学战略开始在材料科学中形成。这些方法导致了替代机器学习模型的出现,该模型能够完全基于过去的数据进行快速预测,而不是通过直接实验或显式求解基本方程的计算/模拟。以数据为中心的信息学方法正变得越来越有用,可用于确定材料的属性,这些属性由于涉及成本、时间或精力而难以用传统方法测量或计算,但这些属性的可靠数据要么已经存在,要么至少可以为关键案例的子集生成。预测通常是内插式的,首先用数字方法对材料进行指纹识别,然后在指纹和感兴趣的属性之间建立映射(通过学习算法建立)。指纹,也称为描述符,可以是多种类型和规模,由应用程序领域和需求决定。如果预测的不确定性得到适当的考虑,预测也可以外推到新材料空间。本文试图概述最近十年来一些成功的数据驱动材料信息学策略,特别强调指纹或描述符的选择。

包罗万象的视角  OVERARCHING PERSPECTIVES

当遇到新情况时,认知系统(包括人类)有一种基于过去类似遭遇做出决定的自然倾向。当新情况与过去所遇到的情况明显不同时,可能会出现判断上的错误,也可能会吸取教训。这些过去的情景、所作的决定和吸取的教训的总和可以被统称为“经验”、“直觉”,甚至是“常识”。理想情况下,根据认知系统的内在能力,它的决策能力应该随着所遇到场景的丰富程度的增加而逐步提高。

近几十年来,人工智能(AI)和统计学界已经将这些看似模糊的概念量化并在数学上精确化。这些努力产生了从过去经验(或“例子”)中学习的实用机器。这类机器学习方法的经典范例包括面部、指纹或物体识别系统、能够玩复杂游戏(如象棋、围棋或扑克)的机器,以及自动化系统(如机器人或自动驾驶汽车)。在每一种情况下,都需要大量过去例子的数据集,例如图像和它们的身份,棋盘游戏中棋子的配置和最好的走法,以及开车时遇到的场景和最好的动作。

从表面上看,当遇到新情况或问题时,用于确定最佳决策或答案的数据驱动方法似乎与基于基础科学的方法截然不同,在基础科学中,预测是通过求解控制相关现象的方程来实现的。但是从另一个角度看,科学过程本身不是这样的吗?科学过程从观察开始,然后是直觉,然后构建一个解释观察结果的定量理论,然后在新的观察基础上对理论进行改进。

伴随着兴奋和机遇而来的是挑战。不断出现的问题是,什么样的材料科学问题最适合或最能从数据驱动方法中受益。在决定使用机器学习方法来解决感兴趣的问题之前,对这方面有一个满意的理解是至关重要的。也许数据驱动方法最危险的方面是机器学习模型在不知情的情况下应用于先前数据领域之外的案例。一个丰富而又很大程度上未知的研究领域是,识别这种情况何时发生,并能够量化机器学习预测的不确定性,尤其是当模型偏离领域时。处理这些危险情况的解决方案可能为自适应学习模型开辟道路,这些模型可以通过系统地注入新数据来逐步提高质量,而这是硬科学中机器学习进一步蓬勃发展的关键方面。

机器学习的要素 ELEMENTS OF MACHINE LEARNING (WITHIN MATERIALS SCIENCE)

不管研究的具体问题是什么,机器学习的前提是存在过去的数据。

所有试图解决上述问题的数据驱动策略都由两个不同的步骤组成,这两个步骤都旨在满足定量预测的需要。第一步是用数字表示数据集中的各种输入用例(或材料)。在这一步结束时,每个输入用例将被缩减为一串数字(或指纹)。第二步建立指纹输入和目标属性之间的映射,本质上完全是数值的,基本上不需要领域知识。如图:

文献笔记:机器学习在材料信息学中的应用与展望

有几种算法,从基本的(如线性回归)到高度复杂的(内核岭回归、决策树、深度神经网络),都可以用来建立这种映射和创建代理预测模型。虽然一些算法提供了与输入和输出相关的实际函数形式(例如,基于回归的方案),但其他算法没有(例如,决策树)。此外,可用数据的数量也可能决定学习算法的选择。例如,可以使用核脊回归或高斯过程回归等回归算法充分处理数万个数据点;但是大得多的数据集(例如,数十万或数百万)的可用性可能需要深度神经网络,这仅仅是因为考虑到相应数据集大小的预测模型具有良好的可伸缩性。面对的问题既可以是连续问题(体积模量、带隙、熔化温度等)也会是离散问题(如晶体结构、特定的结构基元等),称为分类问题。此时,值得一提的是,上文所述的学习问题大部分涉及到指纹与目标属性之间的映射,称为“监督学习”;另一方面,“无监督学习”仅使用指纹识别数据中的模式(例如,用于分类或降低指纹向量的维数)。

在整个学习过程中,坚持严格的统计实践是典型的(也是必不可少的)。其中的核心概念是对不可见数据的交叉验证和测试,试图确保基于原始数据集开发的学习模型能够真正处理新情况,而不会陷入“过度拟合”的危险。

机器学习应该被视为原始数据集 指纹描述符 训练学习步骤 的组织创建,以及必要的关于 优化进步 有针对性的注入新数据 的后续步骤,最终形成一个专家推荐系统,该系统可以不断地、自适应地改进。

 

指纹或描述符的层次结构  HIERARCHY OF FINGERPRINTS OR DESCRIPTORS

我们现在详细讨论机器学习范式中最重要的部分,即处理 输入用例或材料 的数字表示的部分。

根据所研究的问题和预测的精度要求,可以在不同粒度级别上定义指纹。一般的经验法则是,指纹越细,预期的准确度就越高,学习框架就越费力、数据越密集、概念越少。最后一点的推论是,对材料的快速初级粗筛通常应使用较粗的指纹作为目标。

无论表示的具体选择是什么,指纹都应该对某些转换保持不变。材料的表示形式应该不受材料的刚性平移或旋转的影响。如果表现足够好,包括原子位置信息,类似原子的排列不应改变指纹。这些不变性属性很容易包含在较粗的指纹定义中,但在较细的描述符中却不一定。

由于这些原因,为手头的问题构建指纹并不总是简单或明显的。

 

基于总体级别属性描述符的学习示例  EXAMPLES OF LEARNING BASED ON GROSS-LEVE PROPERTY-BASED DESCRIPTORS