通过直接在细胞中筛选407种化合物,奥地利和美国的科学家发现,它们与2305种以前不知道有任何此类相互作用的蛋白质结合。位于维也纳的奥地利科学院分子医学中心(CEMM)的乔治·温特(Georg Winter)和他的同事们利用大量的化合物集合创建了一个开放访问的数据集。有了这些数据,他们教了一个机器学习系统来准确预测化合物与蛋白质结合的混杂程度,并证明它可以很容易地预测其他特性。
温特说,蛋白质-配体相互作用的大型数据集和人工智能工具现在可供其他研究人员使用,这一点尤为重要。他还认为,疾病研究人员可以瞄准的大量新蛋白质具有重要意义。他告诉《化学世界》:“这是非常令人兴奋的,因为它意味着人类蛋白质组中未被开发但可用于药物的比例可能比我们预期的要大得多。”
目前还没有一种化合物可以结合人类所能制造的全部蛋白质的80%左右,这些蛋白质被统称为蛋白质组。与此同时,药物研究人员通常以相对较慢的方式确定靶向蛋白质来治疗疾病。科学家们此前曾试图通过直接筛选细胞内的化合物来改变这种状况。这种方法将每一种被筛选的化合物与一种高活性的重氮嘧啶连接起来,当暴露在紫外线下时,它通过共价键永久地附着在附近的任何蛋白质上。
该图显示了该项目中筛选的407种化合物所涵盖的化学空间
以前的研究仅限于测试大约20种化合物,而温特的团队能够筛选407种化合物,每管分配7种化合物和永生的人类肾细胞。在打破细胞后,温特的团队,包括制药巨头辉瑞公司的合作者,可以使用高灵敏度的质谱技术确定哪些化合物与哪些蛋白质结合。
研究小组发现了47,658种化合物蛋白质相互作用,涉及2600多种蛋白质,其中大多数以前从未有过任何相互作用的记录。然后,研究人员修改了涉及这三种相互作用的化合物的结构,以生产可能在未来用于影响蛋白质功能的探针。
温特和他的同事们还使用了大量的反应数据集来训练一个预先存在的机器学习工具,以区分与许多蛋白质结合的“混杂”化合物和只与少数蛋白质结合的“非混杂”化合物。他们还可以建立定制的机器学习模型来预测其他属性,比如化合物与特定种类蛋白质结合的概率。该团队现在想要产生更大的数据集,并以非蛋白质为目标,如核酸。
该模型显示了新发现的筛选化合物之一与膜转运蛋白之间的相互作用
加拿大多伦多大学结构基因组学联盟(SGC)的首席科学家谢丽尔·阿罗史密斯称这些结果是“令人印象深刻的身体或工作”。她补充说,这篇论文是“将类似药物的化学空间映射到人类蛋白质组的重要一步”。阿罗史密斯说:“这是研究和理解‘黑暗蛋白质组’所需要的研究类型。”“开放数据资源本身是值得注意的,对于社区使用和探索其用途尤其重要,包括生成他们自己的机器学习模型。”
科学作家
sed在埃克塞特,UKView完整的个人资料
有话要说...