人工智能赋能肿瘤非编码基因组解析
肿瘤仍是21世纪面临的重大健康挑战。与此同时,人工智能(artificial intelligence,AI)堪称时代最具变革性的技术进步之一。因此,越来越多的研究团队开始利用AI来应对肿瘤研究中的诸多挑战。通过将AI整合到肿瘤组学研究中,研究人员如今能够分析海量的基因组数据集,从而在可能影响肿瘤发展的非编码区内揭示新的模式。
致癌的主要诱因是细胞DNA中突变的累积。鉴于人类基因组中超过98%的区域为非编码区,可以预期大部分突变发生在这些尚未被充分探索的区域。2012年,随着Encyclopedia of DNA Elements(ENCODE)的发布,科学界认识到非编码元件在基因调控、染色体结构组织以及其他细胞过程中不可或缺的功能。然而,这些一度被忽视的所谓“垃圾”DNA(“junk” DNA),曾因其无法编码蛋白质而被认为功能上无意义。近年来,非正式的称谓已从“垃圾”转变为“暗”基因组(“dark” genome),摒弃了其无关紧要的观念,转而强调目前对自身大部分DNA的理解仍然有限。研究证实,影响调控元件的突变也可能参与肿瘤发生过程。这一点在2013年得到了强化,当时的研究证明了基因端粒酶逆转录酶(telomerase reverse transcriptase,TERT)启动子中的点突变具有致癌效应。
尽管过去十年取得了显著进展,但在理解非编码变异在肿瘤中的作用方面,仍存在若干挑战。关键问题包括区分功能性与非功能性改变、识别致病性变异、以及揭示非编码区突变的潜在机制。在此背景下,AI模型的出现重新定义了这一领域,为克服这些障碍提供了强有力的工具。本综述旨在追溯认知的演变历程——从20世纪70年代提出的“垃圾DNA”初始概念,到近期发表的用于肿瘤基因组功能注释的通用表达转换器(general expression transformer,GET)模型。
本综述包含两个主要部分。第一部分将介绍关于基因组非编码区作用及其通过突变影响致癌机制的最新观点。将审视关键的调控元件,并提供已知的肿瘤相关突变影响这些元件的实例,例如启动子和增强子中的突变,以及研究较少的非编码区中的种系风险变异。在第二部分中,将考察最前沿的AI模型,这些模型极大地增进了对人类基因组非编码变异背后生物学机制的理解。将根据这些模型的研究目的、数据需求、架构和输出结果进行比较,重点关注它们在计算生物学和肿瘤研究领域内的应用与意义。
2024年9月,《Nature》杂志上由“基因组变异功能影响联盟”(Impact of Genomic Variation on Function Consortium)发表的一篇观点文章,进一步凸显了本综述的重要性。该文章详述了该联盟的一项战略计划,旨在整合实验与计算方法,以阐明编码和非编码变异如何在多种疾病中影响基因调控和蛋白质相互作用网络。这一计划强调迫切需要深化对肿瘤基因组学中非编码区的理解,这恰好与本综述的目标高度一致——即探索非编码区的功能角色以及可用于研究它们的创新计算工具。
本综述将 (i) 讨论并举例说明关键调控元件及其他非编码区中的点突变如何影响肿瘤发展;(ii) 评估用于分析非编码变异的主流AI模型,重点关注其在肿瘤研究中的应用,并讨论它们在近十年来的演变。将比较关键因素,例如模型复杂度、数据整合能力、细胞类型特异性、结果可解释性以及在研究背景下的整体可用性,阐明这两个主要目标之间的联系。通过强调这些模型如何促进对基因组调控的理解及其对肿瘤的潜在影响,旨在为生物医学界,特别是那些对计算技术不太熟悉的研究人员,提供有价值的见解,从而促进这些技术与正在进行的研究工作的融合。
肿瘤背景下的非编码突变
2020年发表的《肿瘤驱动基因突变汇编(A Compendium of Mutational Cancer Driver Genes)》虽识别了肿瘤相关关键基因,但未涉及非编码元件的突变。同年一篇综述强调了非编码基因组在肿瘤中的重要性,并指出其在基因调控中的关键作用。这些调控元件中的突变可通过促进细胞异常增殖、抑制抑癌基因或破坏DNA修复机制,扰乱精密的调控网络。这一观点凸显了整合编码区与非编码区突变的肿瘤遗传学研究策略的必要性。
全基因组关联研究(GWAS)常发现与肿瘤存在潜在关联的种系非编码变异,但此类关联无法证实因果关系。要确定真正的致病变异,尤其针对非编码区,需开展深入的功能研究。先进的人工智能模型能通过指导研究者精确定位相关变异、起源基因与细胞或潜在机制,提升功能研究效率,同时为解析其在基因调控和癌变中的作用提供新视角。
非编码区在肿瘤中的复杂作用远超关联研究范畴。后续内容将探讨主要调控元件的功能特征,重点分析特定突变及其对多癌种的影响。列举与肿瘤相关的体细胞及种系非编码突变典型案例,聚焦启动子、增强子、超级增强子(SE)和沉默子等调控元件,以及功能尚不明确的内含子或基因间"其他"区域的突变。需说明的是,尽管本研究主要关注点突变,但种系(germline)与体细胞(somatic)的结构变异同样能在非编码基因组中发挥重要作用并促进肿瘤发生。