虽然大多数论文强调与肿瘤相关的例子,但值得注意的是,Basset和DeepC在其原始论文中并未专注于肿瘤。相反,这些模型被应用于其他临床状况。需要强调的一个关键点是,所呈现发现的功能性后果,目前仍存在不确定性。尽管一些研究包含了验证工作,但关于特定基因中的非编码突变是否为典型驱动因素的疑问仍然存在,这凸显了AI模型的一个局限性。

  必须强调的是,所讨论的所有模型都被高度引用,平均总引用次数为1,538次(范围从184到3,256次),平均每年引用次数为228次(范围从46到562次)。这些可观的引用率反映了它们在遗传学研究和肿瘤研究领域的重大影响和实际效用。

模型演化的总体概览

  较旧的模型(2015年至2018年)在模型复杂度上的评分普遍低于较新的模型(2018年至2024年)。这种差异很容易解释,因为早期模型采用较简单的架构和较少的参数开发,反映了当时计算和算法的局限性。相比之下,新模型得益于计算能力和深度学习技术的进步,能够构建更复杂的架构以捕捉精细的生物学模式,尽管复杂度也随之增加。在数据整合和细胞类型特异性方面也观察到类似的趋势,较新的模型因其能够整合多样化数据集并针对特定细胞类型而表现出色。

  然而,在实际研究中的实用性似乎与发表年份无关。这可能是因为,无论技术进步如何,这些模型的实际应用在很大程度上依赖于用户友好性界面、详尽文档和社区支持等因素,而这些因素并不总是与模型的复杂度或新颖性直接相关。

  值得注意的是,没有任何模型在数据整合、可解释性或实际研究实用性这三个方面获得满分5分。这表明,在不久的将来对这些模型进行改进,有望在这些领域取得显著提升。

讨论

  本综述首次系统分析了应用于肿瘤研究中非编码基因组研究的AI模型。这项研究意义重大,因为AI技术具有识别非编码突变、揭示风险变异的功能影响、阐明其作用机制以及深化对这些突变在肿瘤发生中作用理解的潜力。

  在本综述的第一部分,探讨了非编码突变的识别如何成为肿瘤生物学研究的关键要素。这些散布在调控元件中的突变,破坏了维持细胞稳态所必需的复杂基因调控网络。具体而言,启动子中的突变常常激活癌基因或使抑癌基因失活,从而赋予肿瘤细胞生长优势;增强子突变则可能放大致癌信号或干扰细胞分化途径;类似地,超级增强子(SEs)中的高度突变可异常激活对肿瘤细胞身份和肿瘤发生至关重要的基因网络;而沉默子突变可能增强或减弱基因抑制,导致基因的不当激活或抑制。此外,肿瘤全基因组关联研究(GWAS)中发现的数百个机制未知的非编码变异,强调了对整合基因组学与计算方法的综合性手段的需求,以解码这些突变在复杂网络中的角色。

  第二部分回顾了过去十年间AI模型的演进如何显著提升了在肿瘤研究中分析非编码突变的能力。从早期模型如DeepSEA和DeepBind(2015年,使用卷积神经网络CNN预测变异影响)到更复杂的架构如Basset和Expecto,模型复杂性和数据整合能力取得了显著进步。近期模型如DeltaSVM和DeepC引入了更深层次的学习技术,并通过整合染色质可及性及高分辨率接触矩阵等技术,进一步优化了预测。值得注意的是,基于Transformer的模型,特别是Enformer(2021年)和GET(2024年),代表了范式的转变,它们在捕捉基因调控网络中长程依赖性和复杂相互作用方面提供了前所未有的精度。这些模型,连同CADD和Expecto,彰显了整合多样化生物数据以提升预测准确性的强大力量。这些新型模型对细胞类型特异性和可解释性的关注,不仅深化了对非编码突变如何破坏基因调控的理解,也契合了肿瘤研究中对情境感知(context-aware)洞察的需求。

  尽管AI模型的有效性将取决于具体的数据集和研究目标,但本综述旨在为研究者提供当前最先进模型的全面指南。通过总结其应用、主要优势和局限性,希望支持研究人员选择最合适的工具来研究肿瘤中的非编码突变。

结论

  总之,AI技术的进展已充分证明其在阐明非编码突变在肿瘤中的作用、揭示复杂调控模式和未知机制方面的巨大潜力,引用这些模型的科学文献已逾11,000篇便是明证。为进一步揭示基因组变异与表型之间的关系,建立一个系统的基因组功能目录至关重要。基因组变异功能影响联盟(The Impact of Genomic Variation on Function Consortium, IGVF)旨在整合单细胞图谱、基因组扰动和预测建模,以阐明编码和非编码变异如何在不同的细胞环境中影响基因表达和表型多样性。这一方法突显了开发能够泛化于多种情境的预测模型的重要性,最终将深化对基因组变异及其对人类健康影响的理解。

参考文献

Maria et al., Illuminating the Noncoding Genome in Cancer Using Artificial Intelligence. Cancer Research. (2025).

标签: Cancer Res, Artificial Intelligence