即使有基因组测序,许多罕见病患者仍无法获得明确的遗传诊断。在经过大量检测和专科评估后,仍有约一半患者没有得到诊断。他们的医疗数据中可能藏有线索,但要找到这些线索,可能需要从成千上万乃至数百万个潜在遗传变异、碎片化的临床记录,以及快速变化的科学文献中筛查。
随着新的基因—疾病关系、病例报告和分类证据不断积累,未解病例可能变得可以重新解读。
来自波士顿儿童医院 Manton 孤儿病研究中心、哈佛大学和 OpenAI 的研究人员,使用 OpenAI o3 Deep Research 推理模型,分析了 376 个此前已分析但仍未解决病例的去标识化临床和基因组信息。模型为研究人员和临床医生提出了与证据相关的候选解释,供他们审查。经过专家审查、补充检测和临床确认后,医生在 18 个病例中确立了诊断——在此前专家分析之后,额外诊断检出率为 4.8%。这项研究于 2026 年 6 月 18 日发表在 NEJM AI,展示了 AI 辅助研究流程如何帮助专家在重新审视一些最棘手病例时生成线索。
其中许多病例曾经多年躲过专家分析。在这项研究中,OpenAI o3 Deep Research 帮助研究人员识别线索,这些线索随后通过既定临床流程进行评估;这表明,随着知识演进,由专家主导的定期再分析可能变得更具可扩展性。模型没有为任何患者作出诊断,也没有作出任何临床决策。它生成了与证据相关的假设,供专家审查,并在适当情况下通过额外检测进行调查,再由临床实验室确认。
为什么旧病例可能包含新的答案
遗传检测结果不明确,并不总是永久结论。患者的表型描述、检测结果和家族史可能分散在使用不同标识符、格式和词汇的数据库中。关联这些记录并不容易,因此即使是专家也可能漏掉诊断。专家也可能在相关基因或其变异被证明与疾病相关之前,就已经完成了儿童的基因组测序。随着科学知识进步,同一批数据可能揭示出过去无法发现的答案。
罕见病再分析既是科学问题,也是持续维护问题。患者的基因组可能保持不变,但围绕它的证据一直在变化:研究人员将新的基因和变异与疾病联系起来,实验室重新分类旧变异,病例数据库和论文也不断积累新的观察结果。每一次更新都可能让一个旧的未定病例值得重新审视,因此许多机构都积累了越来越多的基因组待办事项,需要与不断变化的知识库保持同步。
在这项研究中,研究人员设计的流程让模型在现有基因组分析管线之上,充当以解释为先的推理层。它不只是返回一个排序最高的基因,而是被要求把临床特征、遗传模式、变异证据和科学文献联系起来,形成可供人类审查者追问的论证。
再分析如何进行
针对每个病例,团队整理了一份去标识化资料包,其中包括用于描述患者临床表现的标准化人类表型本体术语、偶尔出现的临床医生记录和任何描述性临床诊断、年龄和性别等元数据,以及经过筛选的变异表。该表记录了每个变异的稀有程度、其对所编码蛋白的预测影响、ClinVar 分类,以及可用家庭成员中的信号质量。大多数病例包含孩子及其生物学父母双方的数据。
团队要求模型提出最可能的分子层面解释,并展示其推理依据。随后,研究人员使用临床实验室用于分类遗传变异的同一 ACMG/AMP 框架审查输出结果。每个候选项至少由两名团队成员审查,分歧通过共识解决,模型输出从不被视为诊断。只有在合格专家审查证据、变异被归类为致病或可能致病、经 CLIA 认证实验室确认,并由临床团队将结果反馈给家庭后,一项发现才被计为诊断。
在分析未解病例之前,团队先在已有诊断的病例上优化了该流程。在包含多种罕见病的 51 个病例中,该流程在重复运行中为其中 48 个病例找回了正确的基因和变异。在一组 57 个神经肌肉病例中,该流程在重复运行中为其中 45 个病例返回了正确诊断。在一组 15 个长读长基因组病例中,它在每个病例中都指出了正确基因,并在 12 个病例中指出了两个致病等位基因。这些评估有助于提示开发,也显示出专家审查仍然必不可少的环节。
在这些此前已解决的病例中,模型自报的置信度分数与正确诊断相一致:始终正确检出的平均最低分为 85.6,错误或未知检出的平均最低分为 42.1。这些分数并非经过校准的概率,团队也没有用它们替代证据或临床裁定。但它们有助于引导专家审查者聚焦最有希望的候选诊断。

研究人员发现了什么
随后,团队将该流程应用于四组此前未解决的病例:患有神经发育疾病的儿童、罕见神经肌肉疾病患者、患有早发精神病的儿童和青少年,以及儿科突发意外死亡病例。这些并不是等待首次审查的新病例。许多病例此前已经由多条商业或机构管线检查过,并由多学科团队讨论过。
按队列划分的结果

早发精神病队列规模较小,因此其百分比的置信区间较宽。检出率也反映了每个队列出现单基因解释的可能性。
在模型提出候选项、专家完成审查和临床确认后,医生在 4.8% 的病例中确立了诊断。这个比例不高,但对这一人群而言意义重大,因为此前的专家审查并未解决这些病例。类似再分析研究报告称,在经过充分审查的病例中,增益通常为个位数;更高检出率通常来自包含新病例或等待遗传确认的已知疾病的研究。
在 18 个诊断中,有 7 个属于重新发现:这些诊断已在本地研究流程之外确立,但并未出现在团队审查的记录中。在多个病例中,相关变异已在公共数据库中列为致病或可能致病,这凸显了跨数据源整合信息所面临的运营挑战。
展示识别变异时的灵活性
在一个早发精神病病例中,模型推断出基因组中存在一个结构性事件,而该事件并未列在输入数据中。它将 22 号染色体上一连串低质量检出信号,与该儿童的心脏、免疫、神经发育和精神特征联系起来,进而提出了与迪乔治综合征相关的 22q11.2 缺失假设。这一假设变异随后通过后续基因组测序得到确认。
尽管提示要求找出一个单基因病因,模型有时会提出两个基因,更能解释复杂的临床表现。在一个病例中,LAMA2 和 FOXP1 的变异共同帮助解释了肌肉和神经发育特征;另一个病例则涉及此前未被识别的双基因解释,相关基因为 TTN 和 SRPK3。
生成可检验、具有生物学一致性的假设
除诊断外,模型还为一种名为白癜风的疾病识别出一种可能的新机制解释。在一个神经发育病例中,模型突出显示了一名白癜风患者 S1PR1 中的 11 个氨基酸缺失。S1PR1 编码一种细胞表面受体,参与信号传导、免疫细胞迁移和组织生物学过程。模型整合的证据表明,这一缺失可能改变受体结构和信号传导,从而减少色素生成,同时帮助免疫细胞在皮肤中持续存在。
所提出的 S1PR1—白癜风关系还需要进一步实验验证,但它展示了 AI 的一个强大作用:把结构生物学、免疫学和临床遗传学中分散的发现转化为具体、可检验的假设。
团队还在神经肌肉队列中看到了可能的表型扩展。HSPB8 和 CDK13 中的有害变异并不完全符合这些基因最为人熟知的疾病,这提示可能存在更广泛的临床谱系,需要更多病例和实验室工作来验证。
案例研究:Kyra 近二十年后获得诊断
一切始于空手道课上,当时 Kyra 的母亲注意到,9 岁的女儿做动作时蹲得不如以前低。Kyra 在足球训练中也变慢了,走路和跑步时总是踮着脚尖。她的儿科医生无法确定肌肉无力的原因,于是把她转诊给专科医生。接下来,她在近 20 年里经历了检查、治疗和会诊,却始终没有得到诊断。
Kyra 的病例是神经肌肉队列中发现的四个诊断之一。团队将她的病情与 HSPB8 中的移码变异联系起来,并诊断为一种肌原纤维肌病;在这种疾病中,异常蛋白结构在肌纤维中积累并导致无力。在 Kyra 28 岁生日约一周前,Manton 中心的一名遗传咨询师给她打了电话。
到那时,Kyra 已经花了大半生去适应这种疾病。她 13 岁时就需要依赖呼吸机并使用轮椅,不过此后病情已趋于稳定。尽管 Kyra 所患的这种肌原纤维肌病极为罕见,人们对其长期病程知之甚少,但这一诊断还是带来了一定的释然。
局限性
这项研究表明,通用推理模型可以通过将表型、遗传方式、变异注释、数据质量模式和科学文献整合为可审查的假设,为回顾性基因组再分析作出贡献。它也说明了为什么定期再分析很重要:有些答案只有在知识进步或碎片化记录被整合后才会浮现。
这项研究并不能证明患者、临床医生或客户应使用 OpenAI 模型来诊断疾病或作出医疗决策。它并未描述或认可将 OpenAI o3 Deep Research、ChatGPT 或任何其他 OpenAI 产品用于诊断的预期客户用途。模型没有为任何参与者作出诊断;每一项诊断都由医生和其他合格临床专家通过既定的审查、检测和临床确认流程作出。
这项研究是回顾性的,各队列具有异质性,审查者也未对模型置信度设盲。研究人员没有衡量节省的时间、成本、临床医生投入、假阳性工作量或护理变化。他们也没有系统评估结构变异、重复序列扩增、深内含子变化或嵌合等其他形式的遗传变异。
大型语言模型可能误读语境,或生成看似合理但经不起仔细审查的解释。因此,每个结果都经过了人工裁定和临床确认。模型拓宽了搜索范围,并聚焦了后续由人类主导的分析;它并不决定应向家庭反馈哪些信息或诊断。
这项研究使用的是去标识化信息,没有在获批环境之外使用或传输受保护的健康信息。更广泛的临床部署需要像所有医疗护理一样,重视隐私、安全、可审计性和当地法规。获得模型访问权限并不能替代测序基础设施、遗传咨询、确认性检测或专家判断。
未来展望
前瞻性、多中心研究应在诊断检出率、获得候选项所需时间、临床医生投入、假阳性负担、成本以及对护理的影响等方面,将 LLM 辅助再分析与标准实践进行比较。版本化提示、参考文献核查、审计日志和校准后的不确定性,对可复现性和安全性都很重要。这类研究仍需要合格临床医生评估证据、安排适当检测,并作出任何诊断或治疗决策。
这项研究使用了 OpenAI o3 Deep Research。更新的通用模型可以搜索并综合更多科学材料,而 GPT‑Rosalind 等专用系统则面向更深入的生命科学工作,包括变异对蛋白质结构和功能的影响。这些能力并未在此处测试,需要各自的评估和访问控制。
虽然 OpenAI 支持了这项初步研究,但 Manton 中心将通过 OpenAI Foundation 的资助,领导下一阶段工作。这笔资助将支持该中心开展更广泛的工作,开发一个平台无关、低成本的遗传学 AI 副驾驶,帮助临床团队更快、更一致地分析罕见病病例。
更长期的研究机会在于探索由专家主导的 AI 辅助再分析,能否帮助科学理解跟上发现的步伐。其前景并不是让 AI 取代医生诊断,而是经过审慎评估的研究工具或许能帮助专家识别值得进一步调查的证据。对成千上万的家庭来说,今天尚无答案的问题不必永远没有答案。