要点速览
- Google DeepMind 推出深度学习模型 AlphaGenome,专门解析过去被视为“垃圾 DNA”的非编码区,预测其在不同细胞中的调控作用。
- 模型一次可分析长达一百万个碱基的 DNA 片段,在单个核苷酸分辨率上预测基因启停、RNA 产量等关键分子过程。
- 研究者可通过比较突变前后的序列,评估遗传变异如何改变基因表达,从而锁定与复杂疾病相关的关键位点。
- 3000 多名科学家已在 160 个国家试用该工具,论文发表于《Nature》,但专家提醒模型仍受训练数据与环境因素限制,并非“万能解码器”。
深度解读
2003 年人类基因组计划完成时,我们拿到的是一本写满 ATCG 的“生命说明书”,但真正理解其中语法与段落结构,一直是生命科学领域最大的难题。只有约 2% 的 DNA 直接编码蛋白质,剩下 98% 的非编码序列长期被轻率地称作“垃圾 DNA”。近十年的研究逐渐发现,这些片段更像是隐藏在乐谱背后的指挥手势——决定哪些基因在什么时间、什么细胞类型中被打开或关闭。
AlphaGenome 的核心价值就在于:它把这些隐形的指挥手势显影出来。团队利用人类和小鼠上百种细胞与组织的公开数据,对模型进行训练,让它学会从长距离的 DNA 序列中,预测基因调控元件的活性。与以往只能看“短窗口”或牺牲分辨率的模型不同,AlphaGenome 既能处理百万碱基级别的长序列,又保留了单碱基级的细致预测能力,这让研究者得以系统地观察一个基因上下游复杂的调控网络。
在实际应用上,科研人员可以把携带疾病相关变异的 DNA 片段丢给 AlphaGenome,让模型预测这些细小改动如何改变转录起始、增强子活性或 RNA 产量,从而筛选出更有可能致病的位点。这一能力被剑桥大学等外部专家称为“突破”,因为它大幅降低了从 GWAS 等全基因组关联结果走到具体致病机制之间的门槛。
当然,DeepMind 自己也承认 AlphaGenome 远非完美。一方面,模型的上限被训练数据所束缚——目前公开的功能基因组学数据在细胞类型、种族和实验条件上都还不够全面;另一方面,基因表达还受到复杂环境因素的影响,这些在纯序列模型中是看不到的。因此,更理性地看待 AlphaGenome 的角色,是把它视作“放大镜”和“导航仪”:它不能直接给出药物,但可以帮助科学家更快找到值得投入资源的靶点。
从 AlphaFold 到 AlphaGenome,Google 正在把基础模型的算力优势,固化为科研基础设施的一部分。对于普通读者来说,这意味着未来针对罕见病、癌症等复杂疾病的机理研究与药物开发,有望在更精确的遗传图谱指导下加速推进。
来源:Taipei Times《Google unveils AI tool probing mysteries of human genome》,经整理与中文重写。
