多模态整合

  AI模型中的数据整合涉及结合基因组序列、转录组谱和表观遗传标记,以增强对基因突变、表达模式和调控相互作用的识别能力。然而,由于数据的异质性、数据集庞大以及格式多样且需要大量预处理,整合工作充满挑战。一些模型,如DeepSEA、Expecto、Enformer和GET,利用了广泛的数据集。DeepSEA使用了可及性谱特征和转录因子(TF)结合事件进行训练;Expecto整合了TF结合、染色质特征以及细胞类型特异的全基因组组蛋白标记以提高其预测能力。Enformer可以在不同类型的全基因组数据轨道上进行训练,包括测量转录活性的CAGE(基因表达帽分析)、组蛋白修饰、TF结合和DNA可及性。GET则将基因组数据与来自200多种细胞类型的染色质可及性数据(单细胞ATAC-seq)和基因表达谱数据(单细胞RNA测序)相结合,以便更好地理解调控转录的机制。这些模型代表了整合多种生物数据以阐明非编码变异复杂效应的精妙趋势。不过,其中一些模型由于整合大规模数据集,可能会带来显著的计算挑战和资源需求。与之相对的是,其他模型则采取了更聚焦的策略,专注于特定的数据类型以解决非编码变异效应的特定方面。例如,DeepBind通过基于实验衍生分数预测结合亲和力,强调DNA-蛋白质相互作用。同样,DeepC通过高分辨率接触矩阵增进了对染色质相互作用的理解。因此,这些模型不需要进行广泛的数据整合。

细胞类型特异性

  细胞类型特异性作为影响模型性能的关键因素,其重要性日益凸显。DeltaSVM、Expecto、Basset、Enformer和GET这几个模型,很好地体现了细胞类型特异性训练数据对预测准确性的影响。当训练数据与目标细胞类型高度匹配时,DeltaSVM在识别致病单核苷酸多态性(SNP)方面表现出色,但其对其他细胞类型的泛化能力则受到限制。Expecto同样擅长进行细胞类型特异性预测,但这需要整合大量的生物学数据。Basset在多种细胞类型上进行了训练,因此提供了一个更为普适的视角,能有效捕捉不同背景下的染色质可及性特征,尽管它在细胞类型特异性调控洞察的深度上可能不如更专门的模型。Enformer提升了先前模型在各种细胞类型和组织中的性能。然而,它只能对训练数据中包含的细胞类型和检测方法进行预测,无法泛化到新的类型。

  在“增强子中的突变”一节讨论的案例,突显了细胞类型特异性对于确保AI模型预测准确性的关键作用。该案例中,SNP使患异柠檬酸脱氢酶(IDH)突变型胶质瘤的风险增加了六倍,但并不影响IDH野生型胶质母细胞瘤。尽管这些肿瘤曾被认为密切相关,现在认识到它们在行为以及可能的起源细胞上存在显著差异。因此,只有那些考虑了细胞类型特异性背景的AI模型,才有可能预测此类变异的影响或指导实验研究。从这个意义上说,最新的GET模型代表了一种开创性的方法,即使在先前未见过的细胞类型(包括非生理性细胞类型)中,也能达到实验级别的基因表达预测精度。

可解释性

  若缺乏足够的可解释性,模型预测可能被视为不透明的“黑箱”输出,这会限制其在临床和研究环境中的应用。在理解肿瘤中非编码基因组突变的背景下,可解释性不仅有益而且是必需的,因为它使研究人员能够精确定位特定突变如何调控基因表达或促成肿瘤发生。一些模型,如DeepSEA和DeepBind,具有强大的预测准确性,但在可解释性方面存在不足。这些基于卷积神经网络(convolutional neural networks,CNN)构建的模型可以预测非编码变异对基因调控的影响,但通常不会揭示驱动其预测的底层特征。

  另一方面,诸如Expecto、Enformer和GET等模型则强调可解释性,它们通过整合多组学数据并采用注意力机制等先进技术来实现这一点。在本综述讨论的模型中,Enformer和GET因其能够整合并学习更广泛序列和细胞类型背景下的关系而脱颖而出。这使得解释更具全局性和信息量,因为它们基于Transformer的架构促进了详细的归因分析,能将预测结果与特定的基因组元件(如启动子、增强子和其他调控区域)联系起来。这种设计通过阐明哪些基因组特征影响预测,增强了模型的透明度,并针对每种人类细胞类型,为基因表达相关的生物学意义提供了直接见解。这种水平的可解释性在肿瘤研究中尤其宝贵,因为理解调控区域中非编码突变的作用,可以揭示肿瘤发生的关键机制并识别潜在的治疗干预靶点。

肿瘤研究中的实用性

  本文综述的AI模型因其在分析人类基因组中非编码变异效应方面的特定优势而被选中。尽管并非所有模型都代表了最新的技术进步,但每个模型都因其在人类遗传学和肿瘤研究中所展现出的实用性和相关性而被纳入。这种审慎的选择确保了讨论聚焦于对理解非编码变异在肿瘤中的作用最为相关的模型。

标签: Cancer Res, Artificial Intelligence