人工智能赋能肿瘤非编码基因组解析
对雌激素受体(estrogen receptor,ER)阳性乳腺癌的GWAS研究,在FGFR2风险位点内识别出三个独立的种系变异。功能性报告基因实验证实,这些变异位于调控FGFR2表达的沉默子元件内。重要的是,风险等位基因增强了沉默子活性,导致FGFR2表达降低、雌激素反应性增强,从而增加乳腺癌风险。类似地,与ER阳性和ER阴性乳腺癌均相关的SNPs被定位到人ERα基因(ESR1)。精细定位和功能研究揭示,其中五个SNPs位于控制ESR1表达的非编码调控元件内,包括一个位于沉默子元件中的SNP,其突变可能升高ESR1的表达。这类突变例证了这些调控元件的改变如何导致基因沉默机制失调并促进肿瘤发生。
非编码区意义未明变异
前文重点阐述了启动子、增强子、超级增强子(SE)和沉默子等关键调控元件中的若干突变,它们在多种肿瘤的发病机制中至关重要。然而,科学证据表明,只有有限数量的非编码突变真正起到驱动肿瘤发生的作用。Dietlein及其同事的研究说明了这种复杂性和功能多样性——他们对19种肿瘤类型的体细胞非编码突变进行了全面的全基因组分析。该研究将突变分类为“调控区域”、“组织特异性基因”及一个附加的“其他”类别,从而揭示了非编码改变的复杂格局。
调控区域的突变在经典肿瘤基因中显示出显著富集,例如TERT启动子突变以及乳腺癌和前列腺癌中的FOXA1改变,突显了这些元件在肿瘤发生中的关键作用。相比之下,组织特异性突变虽作为直接驱动因素的可能性较低,但与脑肿瘤中的TMEFF2和HCN1基因,以及前列腺癌中的KLK3和TMPRSS2基因相关联。此外,该研究结合多项肿瘤GWAS结果,在“其他”类别中识别出大量不符合上述分类的非编码突变。这些包括多种肿瘤中的NEAT1和NEAT2突变,脑癌和卵巢癌中MAD1L1和MAD2L1等基因的改变,乳腺癌中的NF1突变,以及肾癌和肝癌中的KCNJ15和ABHD5突变。另外,在结直肠癌中还发现了APC和SMAD4的非经典剪接位点突变,进一步加深了理解这些非编码区域改变潜在致癌性的复杂性。
这些“其他”非编码突变的潜在机制在很大程度上仍未阐明,这为未来研究指明了一个关键方向。先进的人工智能模型为破译这些突变提供了一种前景广阔的途径,它通过识别数据中隐藏的复杂模式和相互作用,有望带来新型生物标志物和治疗靶点的发现。
在肿瘤研究中利用AI模型解码非编码基因组
在本综述的前一部分,已经强调了体细胞和生殖系突变在关键调控元件以及特征较少的非编码区域中的至关重要性。显而易见,迫切需要在非编码基因组区域中识别新的突变,并阐明其促进肿瘤发生的机制。在此背景下,先进AI模型的出现深刻地改变了肿瘤研究中非编码基因组的研究格局。然而,这些模型在方法学上的差异可能导致预测结果和评分系统的不一致。尽管众多模型利用了DNA序列数据,但其中一些擅长识别调控基序或评估变异影响,而另一些则通过整合额外数据(如染色质可及性)或预测基因表达来提高准确性。这种方法的多样性凸显了理解每个模型的能力、优势和局限性的必要性。对这些方法进行比较分析,有助于精炼模型输出的解读,并深化对肿瘤中非编码基因组的理解。
根据其在领域内的广泛认可度,选择了主要的AI模型进行对比,考量因素包括引用指标、其在预测基因表达和非编码突变效应方面的表现,以及它们从2015年至2024年对肿瘤基因组学研究的贡献。最终,纳入了以下九个模型进行比较:DeepSEA、DeepBind、DeltaSVM、Basset、CADD、Expecto、DeepC、Enformer和 GET。
通过对每个AI模型的报道论文的详细检查,揭示出几个值得进一步讨论的关键特性:模型复杂度、数据整合、细胞类型特异性、可解释性以及在肿瘤研究中的实用性。
模型复杂度
模型复杂度在基因组学AI模型中随时间推移而显著演变。早期模型,如DeepSEA和DeepBind(均发表于2015年),使用中等复杂度的卷积神经网络来预测遗传变异的影响。DeltaSVM(2015年)则采用了更简单的监督机器学习技术——支持向量机。随后的模型,包括Basset(2016年)和Expecto(2018年),引入了更深层的架构和注意力机制来处理细胞类型变异和调控序列。DeepC(2020年)的复杂度达到了新的高度,它使用先进的深度学习技术来预测增强子相关变异。最新的模型Enformer(2021年)和GET(2024年)则利用了基于Transformer的架构,通过注意力机制整合大量基因组数据以捕捉复杂的基因表达相互作用,这反映了模型复杂度的显著增加。此外,这些复杂度的提升也致力于解决该领域的若干常见局限性。当前的基于序列的模型主要捕获启动子中的基因表达决定因素,但常常忽视了远端增强子的关键作用,导致对基因调控的解读不够全面。另外,现有的基因组深度学习模型难以充分解释个体转录组变异,从而限制了对个体遗传差异如何影响基因表达的理解。通过克服这些局限性,新模型提供了对基因组调控更全面的视角。