新加坡国立大学(NUS)新加坡癌症科学研究所(CSI Singapore)的一个研究小组成功地利用人工智能(AI)和深度学习技术,从初级RNA序列中模拟原子水平的RNA 3D结构。与传统方法相比,这种基于人工智能的新方法将RNA模型的准确性提高了70%以上。
该团队由CSI新加坡和新加坡国立大学计算机学院的张杨教授领导,于2023年9月16日在《自然通讯》上发表了他们的研究结果。
rna是由单链核苷酸组成的大分子,其序列顺序在转录过程中来自双链DNA分子。rna在转录和翻译过程中的作用广为人知,它促进了DNA序列中包含的基因信息转移到蛋白质氨基酸序列中。
近年来,人们发现rna在调节各种生物过程中发挥着重要作用,因此将其定位为新的药物靶点。
据估计,与传统的蛋白质靶向药物发现相比,用小分子靶向rna将成倍地扩大药物设计领域。因此,RNA生物学及其在开发新疗法中的应用代表了一个关键的新兴领域,在全球范围内获得了重要的学术和工业投资。
与折叠良好的蛋白质结构相比,由于相对较浅的能量景观,RNA结构及其折叠通常被认为不太稳定。因此,传统的基于物理和统计的力场往往容易出错,无法准确描述rna优雅而复杂的折叠相互作用
同时,蛋白质数据库(Protein Data Bank, PDB)中实验RNA结构的有限可用性进一步限制了这些传统的基于知识的力场的准确性,这些力场是由PDB结构的统计数据推导出来的。
为了应对这些挑战,DRfold创建了两个互补的深度学习网络管道,一个专注于端到端学习,另一个专注于几何约束学习。这种创新的方法显著提高了人工智能力场的精度。这两个网络的协同耦合也进一步提高了基于单个神经网络的人工智能电位的准确性。
关键的创新在于引入了一种深度学习方法来预测RNA三级结构。传统方法依赖于同源建模或基于物理的折叠模拟,这些方法受到力场精度的限制,而DRfold使用自关注变压器网络来预测RNA序列的3D结构,这标志着解决这一关键挑战的革命性转变。
DRfold的新策略集成了基于端到端和几何学习的两个并行和互补网络,有助于提高潜在功能和RNA模型预测的准确性,使其轻巧,高度灵活,可扩展,因此是首选的预测方法。
该研究的第一作者、新加坡CSI的研究科学家Li Yang博士说:“由于rna的生物学功能依赖于特定的三级结构,为了促进基于rna的功能注释和药物发现,确定rna的3D结构变得越来越重要和必要。”
他补充说:“结构生物学的黄金标准,例如使用生物物理实验- x射线晶体学,低温电子显微镜(Cryo-EM)和核磁共振(NMR)光谱-来确定RNA结构,通常是成本和劳动密集型的,限制了它们的应用于已知RNA的一小部分。”
“目前,在RNA中央数据库中有超过3000万个已知的RNA序列,但只有不到500个(或0.0017%)实验解决了结构。令人沮丧的是,这使得超过99%的RNA靶标没有结构信息。因此,我们研究的核心目标是开发能够预测高质量RNA结构模型的新计算方法,填补这一实质性的信息空白。”
新加坡CSI高级首席研究员和该研究的通讯作者张教授说:“我们这项研究的主要目标是弥合实验RNA结构稀缺与RNA生物学领域和制药行业日益增长的需求之间的差距。在这方面,高可信度的DRfold模型可以作为指导RNA药物设计和虚拟筛选的起点,或者帮助阐明RNA分子在细胞中的生物学功能。”
“考虑到mRNA疫苗在防治流行病方面的效力和有效性,DRfold等工具在预测和优化RNA结构以及疫苗的稳定性方面发挥着至关重要的作用。此外,这些工具可用于研究RNA的生物学功能,特别是非编码RNA,并使用遵循序列-结构-功能范式的预测模型设计新的RNA实验。”张教授补充道。
该组织通过他们的网页https://zhanggroup.org/DRfold向公众开放了DRfold的源代码。它的高可扩展性和开源框架使其具有令人难以置信的灵活性,并适用于解决其他相关问题,例如rna -蛋白质相互作用建模。
展望未来,该团队设想将他们的人工智能策略扩展到蛋白质- rna相互作用,这是一个目前缺乏可靠的人工智能方法来预测高质量蛋白质- rna复合物结构的领域。这些工具与RNA功能注释和RNA药物发现高度相关。
此外,该团队希望进一步提高DRfold在单链RNA结构预测方面的准确性。其中一个固有的障碍源于实验RNA结构的有限可用性,这影响了深度学习模型的准确性,特别是对于大尺寸RNA(大约超过200个核苷酸)。
需要新的策略和想法来突破高精度RNA结构预测的瓶颈,研究人员目前正在努力取得令人鼓舞的进展。
有话要说...