《我不是药神》与AI研制新药

时间:2024-05-20 07:49:25

《我不是药神》与AI研制新药


最近电影《我不是药神》引发热议,原研药贵,且研制过程九死一生。近期Science Advances上发表了《Deep reinforcement learning for de novo drug design》(基于深度强化学习的新药设计)、以及2017Journal of Cheminformatics上的《Molecular de-novo design through deep reinforcement learning》。掀起来人工智能方法研制新药的序幕,人工智能到底如何研制新药的?这种方法有什么优缺点?


在制药行业,新药研发是个费时费力、成本高昂、而且成功率极低的工作。一般研制一个新药,需要上十年的时间,费用超过10亿美元。制药企业积累了大量调控蛋白功能的小分子化合物,规模约百万规模的化合物。需要从百万个候选化合物中,刷选出1个药物。这有点像是大海捞针,运气成分很大。而人工智能方法利用机器学习方法,从海量化合物数据库中提取关键有效信息,也许可以大大减少研发时间,提高筛选的成功率,成为新药研发的新的方法。一旦这条路能顺利走通,必将革新小分子化学药研制。 


《我不是药神》与AI研制新药

人工智能方法筛选分子有两个途径:一个是用监督学习的方法建模筛选模型,这种方法好比构建一个大海捞针的模型。另一种方法是利用生成建模依照所需特性来生成分子结构,该方法不需要捞针,而是自动生成生成针取代常规的筛选的过程。我们最初提到近期两篇文章,用的是后一种方法。该方法的的目标是训练出一个生成药物分子的模型,在完成训练之后用该模型生成候选药物。

人工智能具体用到了两类方法:一个是深度学习方法,在这里深度学习方法主要是RNN和生成式对抗网络(GAN,Generative Adversarial Networks ),GAN是近年来非常火的一种学习模型,通过生成模型和判别模型相互博弈产生模型。另一个是强化学习方法,用人类已经研制出的药物作为监督样本,调整模型参数。关于强化学习、监督学习、非监督学习方法,Yann LeCun大神对它们有一个比喻图如下: 

《我不是药神》与AI研制新药

生成模型的输入是什么呢?回想GAN方法正在图像处理中,输入就直接是图像本身。而在新药研制中,如果将分子数字化是个很好玩的事情,因为总不能将一个分子直接搬到计算机内存里去吧(想想都怪怪的),只能将分子数字化。而人类对分子描述包括分子式、分可以作为分子的数字化特征。


例如在《The cornucopia of meaningful leads: Applying deep adversarial auto encoders for new molecule development in oncology》论文中,他们使用用美国癌症研究所(NCI)的 NCI-60 药物筛检数据库中针对乳癌细胞 MCF-7  6252 种化合物,以及分子指纹和分子浓度、生长抑制百分比等数据作为分子的数字化特征,模型输入包括166个参数,来训练一个生成模型。他们所设计的深度网络结构,由输入层(166+1),编码网络(分别由128个和64个神经元组成的两层网络)、解码网络(分别由64个和128个神经元组成的两层网络)、输出层(166+1)、中间的潜在层(分别由4个神经元和1个代表抑制癌细胞效果数据的GI)、鉴别网络(分别由64个和3个神经元组成的两层网络)组成。研究人员在PubChem的七千多万个小分子中,发现了69个化合物,其中13个是已经申请专利的药物分子,另有13个是被PubChem BioAssay登记有效的化合物。


也有文章直接用分子式或者SMILES数据、分子图像以及其他化学和生物相关的分子结构表征数据作为输入,建立模型。想想都觉得疯狂,直接用SMILES数据描述一个分子,也就是将一个分子类比一个自然语言句子,采用自然语言处理方法中常用的RNN或者LSTM方法对这个分子进行建模。这个AI系统得多智能啊!!!直接看分子式就能研制药物了!!本文一开头提到的两篇论文就是用SMILES数据作为模型输入,训练模型的,他们发现直接学习分子式也是一个可行的策略。


对分子式用SMILES编码方法如下图。在本文开头提到的文章中,作者利用RNN方法(或者LSTM方法)可以训练出生成全新SMILES字符串的模型,再基于强化学习中的迁移方法,利用之前人类的小分子数据集作为学习范本,对前面RNN模型进行微调。最终得到的生成模型有可能产生出于真实世界中药物的化合物。

 

《我不是药神》与AI研制新药

用人工智能方法设计新药看起来很容易、但实际上,当前AI设计新药存在许多缺陷:一是很难解释,设计出来的模型为什么能成功,缺乏解释。二是样本量不够大。尽管分子式达到了千万的规模,但是监督数据却非常少,根据《Nature Reviews Drug Discovery2016年的数据,在被FDA批准的1578个药物中,总共涉及的靶点数才667个。而且还没办法想AlphaGO那样自动生成样本。三是强化学习方法中的奖励分无法明确给出,使得现有的强化学习方法运用在新药研制上,真正起作用有限。四是就算挑选出新的分子式,它的临场表现如何还得经历九死一生的过程。


归根结底,是因为我们对新药产生的分子机制还不真正清楚,用人工智能方法研制新药任重道远。

往期回顾:

从“猜画小歌”背后的AI原理,教大家如何得高分

何必心中无码,AI让你眼见为实

党给我智慧给我胆,梯度给我努力的方向

【通俗理解】凸优化

【通俗理解】区块链

外卖机器人诞生!快递小哥会失业吗?

刚刚,有位大神用AI搞定了多位女神

你敢@微信官方,不怕它真送你一顶绿色圣诞帽?

别人都在晒18岁照片,而我却在学习~

今日头条败给了色情?AI算法不行,还是另有隐情?

【机器学习】python凭什么能被纳入教材

【机器学习】朴素贝叶斯算法分析

【机器学习】主成分(PCA)算法分析

【机器学习】非线性回归算法分析

【机器学习】线性回归算法分析

  读AlphaZero论文随想

 进击的TensorFlow

 【通俗理解】协方差

【通俗理解】贝叶斯统计

 从一个双控开关思考神经网络(下)

 从一个双控开关思考神经网络(上)

《我不是药神》与AI研制新药