机器学习是许多生物学家用来分析大量数据的计算工具,帮助他们识别潜在的新药。麻省理工学院的研究人员现在已经在这些类型的机器学习算法中加入了一个新的特性,从而提高了他们的预测能力。
利用这种新的方法,计算机模型可以解释他们分析数据的不确定性,麻省理工学院的研究小组发现了几种有希望的化合物,这些化合物的目标是导致结核病的细菌所需的一种蛋白质。
这种方法以前曾被计算机科学家使用过,但尚未在生物学上得到应用,也可能在蛋白质设计和许多其他生物学领域有用,西蒙斯数学系教授、麻省理工学院计算机科学和人工智能实验室(CSAIL)计算和生物学小组负责人邦尼·伯杰(Bonnie Berger)说。
“这项技术是已知的机器学习子领域的一部分,但人们还没有把它引入生物学,”Berger说。“这是一个范式的转变,绝对是生物探索的方式。”
Berger和Bryan Bryson是麻省理工学院的生物工程助理教授,也是MGH、MIT和哈佛的拉根研究所的成员,他们是这项研究的高级作者。细胞系统。麻省理工学院研究生BrianHie是论文的主要作者。
更好的预测
机器学习是一种计算机建模,在这种模型中,算法学习根据已经看到的数据进行预测。近年来,生物学家开始利用机器学习来搜索潜在药物化合物的庞大数据库,以找到与特定目标相互作用的分子。
这种方法的一个局限性是,当他们分析的数据与他们接受训练的数据相似时,这些算法表现得很好,但它们并不擅长评估那些与他们已经看到的分子有很大不同的分子。
为了克服这一问题,研究人员使用了一种叫做高斯过程的技术,将不确定性值分配给算法所训练的数据。这样,当模型分析训练数据时,他们也会考虑到这些预测的可靠性。
例如,如果进入模型的数据预测某一特定分子与目标蛋白质的结合程度,以及这些预测的不确定性,该模型可以利用这些信息对蛋白质-目标相互作用进行预测,这是它以前从未见过的。该模型还估计了自己预测的确定性。在分析新的数据时,模型的预测对于与训练数据有很大不同的分子来说,其确定性可能较低。研究人员可以利用这些信息来帮助他们决定实验测试哪些分子。
这种方法的另一个优点是该算法只需要少量的训练数据。在这项研究中,麻省理工学院的研究小组用72个小分子及其与400多个蛋白质的相互作用(称为蛋白激酶)对模型进行了训练。然后,他们能够使用这个算法分析近11000个小分子,这些小分子是从锌数据库中提取的,锌数据库是一个公开可用的储存库,含有数百万种化合物。其中许多分子与训练数据中的分子非常不同。
利用这一方法,研究人员能够识别出与他们所加入的蛋白激酶具有非常强的结合亲缘关系的分子。其中包括三种人类激酶,以及在结核分枝杆菌中发现的一种激酶。这种激酶,PknB,是细菌生存的关键,但不是任何一线结核病抗生素的目标。
研究人员随后通过实验测试了他们的一些最成功之处,以了解他们与目标的结合程度,并发现模型的预测非常准确。在模型给出的最确定的分子中,大约90%被证明是真正的命中--远高于现有用于药物筛选的机器学习模型的30%到40%的命中率。
研究人员还使用相同的训练数据来训练不包含不确定性的传统机器学习算法,然后让它分析相同的11000个分子库。他说:“没有不确定性,这个模型就会变得非常混乱,它提出了与激酶相互作用的非常奇怪的化学结构。”
然后,研究人员采取了一些最有前途的PknB抑制剂,并测试他们在细菌培养培养基中生长的结核分枝杆菌,并发现它们抑制细菌的生长。这些抑制剂也在感染细菌的人免疫细胞中起作用。
一个好的起点
这种方法的另一个重要因素是,一旦研究人员获得额外的实验数据,他们就可以将其添加到模型中,并对其进行再培训,从而进一步改进预测。研究人员说,即使是少量的数据也能帮助模型变得更好。
Hie说:“每次迭代都不需要非常大的数据集。”“你可以用10个新的例子重新训练这个模型,这是一个生物学家很容易产生的东西。”
布莱森说,这项研究是多年来首次提出新的分子,可以针对PknB,并且应该给药物开发人员一个很好的起点,可以尝试开发针对激酶的药物。他说:“我们现在为他们提供了一些新的线索,超出了已经公布的范围。”
研究人员还表明,他们可以利用同样的机器学习来提高绿色荧光蛋白的荧光输出,绿色荧光蛋白通常用于标记活细胞内的分子。它也可以应用于许多其他类型的生物学研究,Berger说,他现在正用它来分析推动肿瘤发展的突变。