通过AlphaGenome推进调控变异效应预测 - SCI期刊论文 - 一起赢论文辅导网--专业代写代发SCI、EI、核心期刊、代写MBA、硕博毕业论文。QQ910330594

欢迎访问一起赢论文辅导网

加入收藏 | 设为主页 | 联系我们

本站动态

联系我们

QQ：3949358033

微信：paperwinner

工作时间：9:00-24:00

成功案例

SCI期刊论文

当前位置：首页 > SCI期刊论文

通过AlphaGenome推进调控变异效应预测

来源：一起赢论文网日期：2026-02-09 浏览数：407 【字体：大中小】

通过AlphaGenome推进调控变异效应预测通过DNA序列预测功能基因组测量的深度学习模型，是解读遗传调控密码的强大工具。现有方法涉及输入序列长度和预测分辨率之间的权衡，从而限制了其模态范围和性能1,2,3,4,5.我们展示了AlphaGenome，一个统一的DNA序列模型，输入1 Mb的DNA序列，预测数千条功能基因组链，最高可识别为单碱基对，涵盖多种模态。这些方法包括基因表达、转录启动、染色质可及性、组蛋白修饰、转录因子结合、染色质接触图谱、剪接位点使用以及剪接连接坐标和强度。AlphaGenome 在人类和小鼠基因组训练后，在26项变异效应预测评估中，有25项与现有最强的外部模型相匹配或超越。AlphaGenome能够同时评分所有模态的变异效应，准确地回顾了TAL1致癌基因附近临床相关变异的机制6.为了促进更广泛的应用，我们提供了工具，用于从序列中预测基因组追踪和变异效应。类似内容被他人观看利用Translatomer进行核糖体剖析的深度学习预测揭示了转化调控并解释疾病变异第23篇 2024年10月识别跨239个灵长类动物基因组的受约束序列元素文章开放获取 2023年11月29日下一代测序时代的短串联重复序列：从历史位点到群体数据库第10条 2024年7月主要角色解读基因组序列变异的影响仍是生物学上的核心挑战。非编码变异存在于蛋白质编码区域之外，因其可能引发的多样分子后果，尤其难以解释。例如，非编码变异可以调控基因组特性，如染色质可达性、表观遗传修饰和三维染色质构象。变异体还可以通过改变表达水平或通过剪接改变序列组成来进一步影响信使RNA（mRNA）的可用性。此外，变异体可能表现出细胞类型特异性或组织特异性的影响。鉴于人类中观察到的基因变异中超过98%是非编码的7对于这绝大多数变异的复杂效应进行全球表征，没有计算预测仍然难以解决。计算方法可以从实验数据中学习模式，预测和解释变异效应。一类方法，序列到函数模型1,2,3,4,5输入DNA序列并预测基因组轨迹，这是一种将每个DNA碱基对与从细胞系或组织实验检测中得出的值（代表读段覆盖率、计数或信号）关联的数据格式。基因组追踪涵盖多种数据模式，测量基因表达（输出类型包括RNA测序（RNA-seq）、基因表达帽分析（CAGE）测序和封闭RNA的精密核运行分析（PRO-cap））、剪接（剪接位点、剪接位点使用和连接）、DNA可及性（DNase I超敏感位点测序（DNase-seq））以及转座酶可及染色质测序（ATAC-seq）））。组蛋白修饰（染色质免疫沉淀测序（ChIP-seq））、转录因子结合或染色质构象（高通量染色体（Hi-C）或基于微球菌核酸酶（Micro-C）构象捕捉）。成功训练的序列到函数模型能够准确预测输入序列中的实验测量。此外，通过比较替代序列与参考序列的基因组追踪预测，这些模型可以预测变异的分子效应。目前，基于深度学习的序列到功能模型面临两个基本权衡，限制了其预测变异如何影响不同生物调控模式的能力。首先，由于计算能力限制，模型必须在捕捉长距离基因组相互作用和实现核苷酸级预测分辨率之间进行权衡。尽管像SpliceAI这样的模型4，BPNet8以及ProCapNet9它们提供基分辨率预测，但仅限于短输入序列（例如10 kb或以下），因此可能错过远端调控元件的影响。模型如Enformer（变形者）1以及博尔索伊2可以处理较长的序列（约200–500 kb），以捕捉更广泛的上下文，但代价是降低输出分辨率（128碱基或32碱基对的箱），这可能模糊细微的调控特征，如剪接位点、转录因子足迹或多腺苷酸化位点。第二个权衡是捕捉多样模式与专注于一种或少数一种之间的权衡。一些最先进的（SOTA）模型高度专注于单一模态，如SpliceAI4对于拼接点预测，请使用 ChromBPNet10用于本地染色质可及性和虎鲸3用于三维基因组结构。然而，仅靠专门模型不足以捕捉不同模态变异体的多样分子后果。即使在单一模式如拼接中，像SpliceAI这样的专门模型也存在4或穿山甲11预测某些方面（如拼接点预测），而省略其他方面（如拼接连接预测或拼接点之间的竞争）。DeepSEA、Basenji、Enformer、Sei 和 Borzoi 等模型展示了多模态模型的实用性和实用性。它们允许用户使用单一模型处理多种模态，而无需依赖多个专门模型。此外，他们习得的通用序列表示使其能够迅速针对新任务进行微调。然而，这些更通用的模型在某些任务（如拼接）上可能落后于专业模型，或缺乏某些模态，如接触映射。这里我们介绍AlphaGenome模型，该模型将多模态预测、长序列上下文和碱基对解析统一为一个框架。该模型接收1 Mb的DNA序列作为输入，预测多种细胞类型的多样基因组轨迹。AlphaGenome的剪接预测包括一种新的剪接连接预测方法，同时也预测了剪接位点使用情况。我们通过一套全面的基准测试评估了AlphaGenome的性能，涵盖了其准确预测此前未见DNA序列基因组轨迹的能力以及在变异效应预测任务中的有效性。AlphaGenome在24个基因组追踪预测任务中实现了22个SOTA表现，在26个变异效应预测任务中实现了25个。我们对目标分辨率、序列长度、蒸馏和模态组合进行了大量消融，以解释AlphaGenome的性能并为未来序列到功能模型的设计决策提供参考。我们设想AlphaGenome将为分析基因组调控代码提供强大且可扩展的基础。我们首先介绍了AlphaGenome数据和训练过程的关键技术细节，并附上了我们评估的高级总结（见图）。随后，我们展示了高精度基因组追踪预测性能，这是变异效应预测的前提条件（见图。2）。接下来，我们聚焦于变异效应预测，并针对特定模态进行了剪接的深入分析（见图。3）、基因表达（图。4）以及染色质可及性（见图）5）。最后，我们强调该模型在跨模态变异解释中的实用性（图。6）并剖析建模选择对AlphaGenome性能的影响（见图。7）。图1：AlphaGenome模型架构、训练体系及综合评估性能。figure 1a，模型概述。AlphaGenome处理1 Mb的DNA序列和物种身份（人/鼠），预测5930条人类或1128条小鼠基因组轨迹，涵盖不同细胞类型，以及11种输出类型，分辨率为特定（最右）。计算利用序列并行性，将1 Mb的DNA序列拆分为131 kb的块，跨设备处理。核心架构采用U-Net风格设计，包括编码器（下采样序列）、带设备间通信的变压器和解码器（上采样），这些解码器以各自的分辨率输入任务特定的输出头（详见扩展数据图）。1.） b，预训练过程中，从交叉验证折叠中抽样1 Mb的DNA区间，进行扩展（平移和反补）并用于针对实验目标进行训练，从而产生了针对折叠特异性和全折叠的教师模型。c、蒸馏过程中，学生模型学习利用增强和突变扰动的输入序列，从冻结的全重教师模型中重现预测，产生一个适合变异效应预测的单一模型。d，轨迹预测：预训练折叠-分裂模型。AlphaGenome相较于最佳竞争模型在不同模式和分辨率下的基因组追踪预测任务中的相对性能提升（百分比）（补充表3）。“值”栏代表AlphaGenome的绝对性能。对于所有显示的任务，值为1.0表示完美表现，唯独“配置文件JSD”的理想值为0。竞争模型和AlphaGenome预训练折叠分裂模型均在模型训练中未被发现的基因组区域进行评估。对于分类任务，我们调整了相对改进以考虑随机分类器（方法）的性能。e，变异效应预测：精简全折叠模型。AlphaGenome在变异效应预测任务子集上相较最佳竞争模型的性能相对提升（补充表4）。这些评估采用了精简学生AlphaGenome模型。ds/caQTL 方向（因果性）行代表多个相似数据集的平均相对改进（方法）。ds，DNase敏感性;ca，染色质可及性;JSD，詹森–香农发散。全尺寸图像图2：AlphaGenome 轨迹预测和详细性能评估示例。figure 2a，观察到的和α基因组预测的基因组追踪，位于人类CHR中1兆贝特的保留区域内。19（基于0的坐标：10587331–11635907）在HepG2细胞系中。每种检测的纵轴刻度定义在方法部分。特定股线的轨道用正（+）或负（−）表示，而丝线无关线的轨迹则不使用股符号。接触映射是成对交互矩阵;因此，X轴和Y轴都显示基因组坐标位置。RNA-seq、ATAC-seq和DNase-se序列的预测分辨率为1-bp;H3K27ac和CTCF ChIP-seq分辨率为128 bp;接触图分辨率为2048 BP。b，示例带有拼接的预测。针对50 kb区域的碱基对分辨率AlphaGenome预测，重点突出LDLR基因周围的详细剪接（供体/受体位点、剪接位点使用及剪接连接）及RNA序列预测。c、跟踪不同模态的预测性能评估。小提琴图显示了在未完成测试间隔评估的预测轨与观测轨之间的皮尔逊相关分布。每个小提琴图按模态分组，并按生物体划分（人类为红色，老鼠为蓝色）。填充圆圈及附带数值表示每个测定组和生物体的平均皮尔森r值。剪接连接、RNA-seq、PRO-cap、CAGE和ChIP-seq轨迹进行了log（1 + x）转化，其余轨迹则未转化。d、对保留测试间隔的RNA-seq基因对数表达预测的评估。最左侧面板评估了单个基因在各个轨迹中预测与观察到的对数表达值之间的皮尔逊相关性。中间和最右侧面板利用分位数归一化表达值（详见方法）评估组织或细胞类型特异性的预测;相关性可以计算在每条轨道上的基因（中间）或跨每个基因的轨道（右）。e，拼接点计数预测。预测与观察到的拼接连接读数（log（1 + x）变换后;n = 1,344,738）以及在特定具有明显剪接模式的人类组织中，Pearson r 之间的差异49.每个六边形箱根据该箱中数据点的密度进行着色，颜色越暖，密度越高。斜线表示完全一致（预测=观察到）。更多组织见扩展数据图。第二观察，观察;预言。全尺寸图像图3：AlphaGenome是一个SOTA剪接变异效应预测模型。figure 3a，深度学习模型间预测输出的比较。除博尔索伊（32 bp）外，所有模型均预测分辨率为1碱基对。Borzoi通过RNA测序覆盖隐式预测剪接位点，而其他方法则明确预测。b，导致DLG1（GTEx胫动脉组织）外显子跳跃的变异。预测的剪接连接、位点使用率和RNA序列覆盖率与观察到的参考（REF;蓝色）和替代（ALT;红色）等位基因的覆盖并列显示。c，COL6A2（主动脉）中新接合变体，产生新的接合供体并破坏现有供体。d，利用组织间平均剪接点分数，对U2SURP第9外显子和侧翼内含子进行ISM分析。与拼接相关的图案被突出。e，AlphaGenome 剪接变异效应预测图式。利用连接点或连接点间REF与ALT预测的最大差值来评分变体（方法）。f，AlphaGenome复合和剪接连接评分器与其他精细定位sQTL变异分类方法的比较。变体根据距离拼接点的距离分为两组，如博尔索伊（Borzoi）所行2. 组织特异性auPRCs被平均并按每组织变异数加权。g，与剪接异常值相关的罕见变异预测。AlphaGenome在零样本和监督环境下均进行了评估（训练类似AbSplice的集合模型）50). h，根据深内含子（从剪接位点超过6个基对）和同义变体（从剪接位点超过3个基对）、剪接位点区域的变异（在6个碱基对内或3个碱基点外显子内）以及AlphaMissense预测为“likely_benign”的错义变体的剪接效应，分类致病性与良性ClinVar变异51. i， MFASS剪接变异分类（MPRA测试变体）。auPRC关于实验验证的拼接破坏变异的分类（数据来自Chong等人）。22). GTEx中的纯合/杂合样本数量 #Hom/#Het。全尺寸图像图4：AlphaGenome预测变异对基因表达的影响。figure 4a， RNA-seq变异评分。预测遗传变异对目标基因表达影响的变异评分策略（方法）。b，GTEx结肠（乙状结肠）组织中已知eQTL（第22期：36201698：A>C）的示例预测。观察到的RNA-seq覆盖率为GTEx样本中任一等位基因纯合的平均值。插入，比较ISM，基于20碱基对窗口，以变体为中心（方法）。c，比较在49个GTEx组织中预测eQTLs效应量（'系数'）的表现（Spearman's ρ），适用于不同模型和变异组。d，比较17,675个精细定位GTEx eQTLs（SNV）的AlphaGenome预测变异评分及观察效应量（SuSiE β后验）。每个点都是独特的变异/基因/组织组合。斯皮尔曼的ρ（带符号）= 0.50;斯皮尔曼的ρ（无符号;绝对值）= 0.10。皮尔逊的r（带符号）= 0.39;皮尔逊r（无符号;绝对值）= 0.20。e，不同模型和变体集合下eQTL（'符号'）效应方向的表现比较（auROC）。f，eQTL符号预测表现，按不同变体至TSS的距离区（仅限SNVs）分层。g、符号准确性与eQTL回忆之间的关系。对于一系列变异得分阈值，我们绘制了GTEx eQTLs中得分高于阈值（y轴）的比例和符号准确率（x轴）的比例。h，GWAS基因座预测覆盖。GWAS可信集合的比例（来自Open Targets）52）并预测了合理靶基因的影响方向，比较了AlphaGenome的预测与eQTL共定位方法。顶部，每条条代表不同的AlphaGenome评分总结策略，以及两种不同的得分阈值，分别在eQTL上获得80%或90%的符号准确率（方法）。对于COLOC，我们认为一个可信集合若H4> 0.95。最后，采用PIP加权的AlphaGenome策略（80%），可信集合通过不同属性进一步分层（方法）。i、利用零样本和监督方法区分因果与非因果eQTL（因果性）的表现比较（auROC）（方法）。j，增强子-基因连接性能（ENCODE–rE2G CRISPRi 数据集12).零射评估：性能（auPRC）比较，按增强剂到高质量质量的距离进行分层。监督评估：将AlphaGenome输入梯度分数整合进ENCODE–rE2G扩展模型和ENCODE–rE2G模型。k，paQTL变异效应预测的表现（auPRC），以多腺苷酸化位点距离为阈值。每个群体图代表100种随机匹配每个正SNP与其距离匹配和表达匹配负值的排列（方法）。点越大就是平均值。RF，随机森林。全尺寸图像图5：AlphaGenome准确预测染色质可及性和SPI1转录因子结合的变异效应。figure 5a，用于可达性和ChIP-seq预测的中心掩膜变体评分策略示意图（方法）。b，c，AlphaGenome、Borzoi和ChromBPNet在QTL因果关系（b;平均精度）和QTL效应量（c）上的性能比较。Pearson r）跨越QTL类型和祖谱。d、因果caQTLs（非洲祖源）的预测效应量与观察效应量。散点图显示GM12878细胞系DNase预测数据。签名 Pearson r = 0.74;未签约皮尔森 r = 0.45。带符号皮尔森r相关系数使用原始值;无符号的皮尔逊r使用绝对值。红色和蓝色圆圈突出显示e和f的变体。e，示例：d变异变量预测DNase（GM12878）中的ALT–REF差异。f，来自e的REF/ALT等位基因的ISM衍生序列标志，表明变异体破坏或调节转录因子结合基序。假定结合因子与JASPAR53矩阵编号（MA0105.1 和 MA0105.3）在右侧标示。g，使用GM12878 SPI1 ChIP-seq轨迹的因果SPI1 bQTLs的预测与观察效应量。签名 Pearson r = 0.55;未签约皮尔森 r = 0.12。红色和蓝色圆圈突出h和i的变体。h，选定SPI1 bQTLs的AlphaGenome预测示例。图示了围绕g中突出变体预测SPI1 ChIP-seq轨迹（GM12878）中的ALT–REF差异。i，来自h的SPI1 bQTL等位基因REF和ALT等位基因的ISM衍生序列标志，暗示潜在影响，如SPI1或相关基序的生成或破坏。推测的结合因子和JASPAR矩阵编号（MA0081.2和MA0080.5）在右侧标示。j，CAGI5 MPRA挑战表现（各位点平均;平均皮尔逊r）。使用细胞类型匹配的DNase进行顶层零射;中间、LASSO回归，使用细胞类型匹配或不依赖的DNase;下半页，利用多模态特征进行LASSO回归（AlphaGenome和Borzoi的DNase + RNA + 组蛋白ChIP-seq输出类型;Enformer的DNase + CAGE输出类型）以及所有细胞类型。转录因子。全尺寸图像图6：利用AlphaGenome解读不同模态的变异效应。figure 6a， T-ALL中的非编码癌症突变。影响T-ALL患者TAL1的突变组概述。b，详细的ALT–REF预测，用于致癌性插入（第1章：47239296：C>ACG），详见参考文献。6.显示CD34 CMP轨迹中变异ALT与REF序列之间AlphaGenome预测的差异。ALT序列会在7.5 kb外增加TAL1基因的表达。c，CD34 CMPs中预测TAL1表达变化（ALT–REF）。CD34 CMPs中TAL1表达的RNA序列变异评分。肿瘤突变（橙色）与随机抽样长度匹配的插入缺失（灰色）进行比较。d，预测变异效应的多模态热图。每列都是c的不同变体。每行都是与CD34 CMP中基因组轨迹相关的变异效应评分，接触图变异效应评分则是跨组织平均的（因为我们的数据中没有CD34 CMP接触图谱）。背景突变与致癌突变并列。变体按插入长度和位置分组（如图所示）。6c），分数采用最小-最大标准。e，AlphaGenome在CD34 CMPs中预测DNase、H3K27ac和TAL1 RNA-seq表达的ISM结果。顶部，参考序列的ISM预测;底部，ISM关于致癌性插入序列（第一频道：第1 47239296：C>ACG）。此前研究中的Myb图案++++++6，最初来自UniPROBE54.f，性状改变型状的非编码变异中的多模态性。影响性状的变异比例55（“候选因果”;孟德尔338人，复杂性状1140人），以及匹配对照变体55（“对照组”;分别为3,042和10,260），这些分数在至少一个预测轨道中超过了不同的分位数分数阈值。这里，超过分位数分数阈值1.0意味着预测效应超过99%的常见变异（方法）。变异体根据阈值被通过的路径分类：“局部调控”（ChIP/DNase/ATAC）、“仅表达”（RNA/CAGE）和“多模态”（上述组合）。横线上方的数字表示候选因果变异中检测到的变异（三类之和）相较于对照变异的相对富集情况。富集值随着阈值更严格而增加，回忆（x轴）则减少。全尺寸图像图7：分辨率、序列长度、集合、蒸馏和多模态训练对AlphaGenome表现的影响。figure 7消融研究评估了各项性能指标（纵轴）中的关键模型设计选择。对于所有面板，线代表不同随机种子重复训练跑的平均值（除非另有说明，n = 4），阴影等高线表示不确定区间（两个标准差）。a，目标分辨率的影响。不同分辨率（x轴;1–128碱基对）下训练预测目标（DNA可及性、基因表达和剪接）的模型性能比较。b、训练和推断过程中序列长度的影响。蓝点表示一组以1-Mb输入训练的模型，这些输入通过不同的输入序列长度（x轴）进行评估。紫色叉表示在x轴上显示的序列长度下训练的模型，但以固定的1-Mb输入长度进行评估。绿色三角形表示使用相同匹配序列长度（x轴）训练和评估的模型。c，子模型数量在集成和蒸馏中的影响。预训练模型平均系（蓝点/等高线;x轴表示集合规模）与通过蒸馏产生单个模型，使用1、4或64教师模型（橙色十字/等高线;x轴表示教师人数）。d、多模态学习的影响。仅在特定模态组（蓝点;n = 每组8个种子，若模态与评估度量一致，则以绿色高亮显示），对比完整的多模态模型（黑色虚线;n = 平均4个种子）。在这些模型的训练过程中，我们确保只有目标模态组的预测头对共享表示做出更新贡献，从而评估该模态组对整体模型表现的贡献。所示组（横轴）包括仅通过梯度训练的模型，包括可达性（ATAC、DNase和接触图谱）、表达（RNA-seq、CAGE和PRO-cap）、剪接（位点、使用和连接）或组蛋白ChIP-seq。全尺寸图像统一DNA序列到功能模型AlphaGenome 是一种深度学习模型，旨在从人类和小鼠的 DNA 中学习不同分子表型的序列基础（见图）。1a）。同时预测了5,930条人类或1,128条小鼠基因组轨迹，涵盖11种基因表达（RNA-seq、CAGE和PRO-cap）、详细的剪接模式（剪接位点、剪接位点使用和连接）、染色质状态（DNase、ATAC-seq、组蛋白修饰和转录因子结合）以及染色质接触图谱。这些数据涵盖多种生物学背景，如不同的组织类型、细胞类型和细胞系（详见补充表1的摘要和补充表2的完整元数据）。这些预测基于1-Mb的DNA序列，这一上下文长度旨在涵盖相关远端调控景观的相当一部分。例如，99%（471对中的465对）验证的增强子-基因对位于1 Mb以内（参考文献）12).AlphaGenome采用了受U-Net启发的系统2,13 主干架构（图。1a及扩展数据图。1a）高效地将输入序列处理为两种类型的序列表示：一维嵌入（分辨率为1-bp和128-bp），对应线性基因组的表示;以及二维嵌入（分辨率为2,048 bp），对应基因组片段间空间相互作用的表示。一维嵌入是基因组追踪预测的基础，而二维嵌入则是预测成对交互作用（接触图）的基础。在该架构中，卷积层建模了细粒度预测所需的局部序列模式，而变换器块则模拟序列中更粗糙但范围更长的依赖关系，如增强子-启动子相互作用。通过八个互联的张量处理单元（v3）设备实现序列并行，实现完整的1 Mb序列的碱对解析训练。基因组追踪预测是这些序列嵌入的线性变换，除了剪接连接计数预测外，后者采用了一种独立机制，捕捉供体-受体对一维嵌入之间的相互作用（扩展数据图）。1）。我们用两阶段流程训练模型：预训练和蒸馏。预训练阶段（图。1b）利用观察到的实验数据生成了两种类型的模型。折叠特异性模型采用四重交叉验证方案（方法）训练，四分之三的参考基因组用于训练，剩余四分之一保留用于验证和测试。这些模型随后被用来评估AlphaGenome的泛化，通过预测在未见（测试）参考基因组间隔上的基因组轨迹（见图）。1b）此外，所有可用参考基因组区间的全折叠模型都被训练，并在第二阶段（蒸馏;无花果。1c）。在蒸馏阶段，一个共享预训练架构的单一学生模型被训练为使用随机增强输入序列预测一组全方向教师的输出（方法）。如前所述，这种精炼的学生模型14在单个模型实例中，实现了更强健性和变异效应预测准确率的提升，通过每个变体的单一设备调用即可预测所有建模模态和细胞类型。在NVIDIA H100 GPU上，学生模型在大尺度变异效应预测中效率高于将多个独立训练模型集成的替代方法。演出概览为了表征AlphaGenome的模型表现，我们首先评估了其对未可见基因组区间的推广性，这是高质量变异效应预测的前提。我们进行了24次基因组追踪评估，涵盖了所有11种预测的模态（方法及补充表3）。对于折叠外评估，使用预训练的、针对折叠特异性的AlphaGenome模型，并与每个任务中最强的外部模型进行比较。AlphaGenome在24项评估中22项优于这些外部模型（见图）。1d，扩展数据图。3 及补充表 3）。值得注意的是，AlphaGenome在细胞类型特异性基因级对数折叠变化预测方面相比Borzoi表现提升了+14.7%2，另一个多模态序列模型（图。扩展数据中的1e及分层指标。3e）。AlphaGenome 在各自任务中也优于专门的单模态模型，如 Orca3在接触图上（接触图Pearson r +6.3%;细胞类型特异性差异 +42.3%;无花果。1D及扩展数据图。4）、ProCapNet9转录启动轨迹（+15%总计数Pearson r;扩展数据图。3f）和ChromBPNet10可及性方面（ATAC+1.6%;DNase谱Jensen–Shannon发散+9.5%;扩展数据图。3g）。接着，我们评估了该模型在预测变异效应方面的表现。我们组建了第二组26项变异效应预测基准，涵盖基因表达、剪接、多腺苷酸化、增强子-基因连接、DNA可及性和转录因子结合。同样，我们与每个任务中外部最强的模型进行了比较（方法及补充表4）。对于变异效应的预测，我们使用了精简学生模型。AlphaGenome在26项评估中有25项与外部模型匹配或优于（见图）。1e及补充表4）。这包括在定量性状位点（QTL）评估中的强劲表现，如表达QTLs的符号预测（eQTLs;+25.5%，相比Borzoi）2）以及可访问性QTL（+8.0%，相较于ChromBPNet）10，在五个数据集中平均;方法），展示了其在多模态和专门单模态基线上的优势。综合来看，这些结果表明AlphaGenome更准确地模拟了基因组轨迹和变异效应。改进的轨道预测性能鉴于AlphaGenome在基因组轨迹评估中的强劲表现，我们对其轨迹预测进行了更详细的研究。折叠特异性预训练的AlphaGenome模型显示，预测与观察到的读段覆盖率在未见基因组区间上高度一致（见图）。2a）。例如，预测的HepG2基因组轨迹在LDLR基因上展示了链特异性、碱基对分辨率RNA-seq在外显子上的覆盖率，以及预测的剪接位点、剪接位点使用率和剪接连接读段的覆盖率（图）。2b）。更多关于剪接、基因表达和染色质追踪预测的示例见补充图。1–3，以及对基因组特征如外显子边界的更细致描绘见补充图。4.定量上，我们在人类和小鼠基因组中，功能基因组追踪的预测信号与观察信号之间观察到强烈的皮尔逊相关性（r）（图）。2c），无论是在所有轨道上，还是按生物样本类型或数据源分组时（补充图）。5）。尽管整体表达水平预测良好，准确捕捉细胞类型特异性表达偏差仍是一项挑战（见图）。第二及补充图。2j）。关于接合（扩展数据图）2a），AlphaGenome 准确预测剪接位点（扩展数据图）。2b）以及拼接站点的使用（扩展数据图）。2b，c）。它还准确预测定量接头读数覆盖率及多种组织中的PSI5和PSI3，与实验测量结果高度相关（见图）。2e，扩展数据图。2b、d、e 及方法）。尽管AlphaGenome在某些情况下能够预测组织特异性替代剪接（补充图）。1），还需要进一步改进以精确预测中间剪接效率并捕捉组织特异性差异（扩展数据图）。2c，e）。改进的拼接变体预测遗传变异导致疾病的主要方式之一是通过破坏剪接过程15该过程通过切除内含子并在剪接处连接外显子，产生成熟的RNA序列。剪接结果可以在三个层级建模：任一核苷酸作为剪接供体或受体的概率（剪接位点预测）4,11,16，潜在拼接点之间的竞争性选择（拼接点使用预测） 11,16以及特定内含子的预测（剪接结预测）。AlphaGenome 预测这三种量值，并直接预测 RNA-seq 覆盖率，从而提供了更全面的变异剪接相关分子后果视图（见图）。3a）。为了说明AlphaGenome同时预测多个相关剪接变异效应的能力，我们首先探究了其重现已知生物学结果的能力。我们研究了一个4碱基的缺失（chr. 3： 197081044： TACTC>T），这是一种在基因型-组织表达（GTEx）样本中实证观察到导致胫动脉组织外显子跳跃的变异17项目（图。3b）。AlphaGenome准确预测了这一既定结果，涵盖所有层级：受影响外显子剪接位点的预测使用大幅减少，预测连接跳过外显子边缘的连接丢失，出现绕过外显子的假定连接，以及预测外显子RNA序列覆盖率大幅下降。同样，AlphaGenome的预测准确捕捉了由chr诱导的新拼接连接和扩展外显子。21：46126238：G>C变异，在杂合的GTEx RNA-seq样本中观察到的效应（见图。3c）。最后，系统预测序列区域中所有可能单核苷酸变异效应的计算机突变（ISM）揭示了剪接预测的序列决定因素。例如，对U2SURP基因第9外显子及其侧翼内含子的ISM分析突显了可识别的剪接相关序列基序 18,19（图。3d）。进一步在自闭症谱系障碍患者中被实验验证的断裂剪接变异示例4见补充图。6。基于AlphaGenome的多维剪接预测，我们开发了一个统一的剪接变异评分器，以系统性检测剪接破坏变异。具体来说，我们为每种预测模态设计了定制的变体评分策略（见图）。3e及其方法）并对个别得分相加，以提供变异预测效应的综合衡量。我们将该综合评分器与现有方法在多种与拼接相关的变异效应预测任务中进行了基准测试。AlphaGenome在精细定位剪接QTL（sQTL）分类中表现最佳2.20 包括距离最近剪接位点10 kb以内的单核苷酸多态性（SNP）和距离剪接位点200 bp以内的近端变体（图。3f）。此外，它在监督和非监督环境下，预测与GTEx拼接异常值相关的罕见SNP和indels方面表现最高（见图）。3g和方法）。我们还评估了AlphaGenome在区分ClinVar致病变异与良性变异中的表现21其中，其综合得分在三个变体类别中均优于现有最佳方法：深内含和同义（精确-回忆曲线面积（auPRC）0.66对比穿山甲0.64）、剪接区（auPRC 0.57对Pangolin的0.55）和误差区（auPRC 0.18对DeltaSplice和Pangolin的0.16;无花果。3h及补充图。7）在评估AlphaGenome预测稀有变异是否破坏剪接的能力时，利用大规模平行剪接微基因报告测定（多重功能性SORT-seq剪接测定（MFASS））数据22，它被Pangolin表现优于（auPRC 0.54对0.51），但超过了SpliceAI和DeltaSplice（均为auPRC 0.49;无花果。3i）。值得注意的是，剪接结评分器在除“深度内含子和同义”ClinVar和MFASS变体外，在所有基准测试中均优于以往方法，凸显了在连接层面建模剪接的重要性。总之，AlphaGenome在七个基准测试中实现了SOTA剪接变异效应预测，提供了更全面的剪接事件和转录本结构视图。

[返回]

上一篇：科学文献与检索增强语言模型的综合
下一篇：气候变化对中国粮食安全的影响：基于XGBoost和RIME-CNN-LSTM-ATT模型