
Ai 与癌症:多模态基础模型如何彻底改变癌症诊断和治疗
- Rifx.Online
- AI Applications , Machine Learning , AI Research
- 26 Feb, 2025
数字说明了一切——OpenAI、Oracle 和美国政府最近宣布了一项 5000 亿美元的投资,旨在通过 “星际之门项目” 解决癌症等挑战。一些人怀疑这一科学基础——AI真的能治愈癌症吗,还是这只是更多的 AI 媒体炒作?
AI 加速我们对癌症理解的潜力是真实存在的。为什么?一种被称为生成式AI模型的新型 AI,在庞大的数据集中寻找模式方面表现出色——癌症研究恰好有大量这样的数据。仅诊断就涉及扫描、血液测试、活检和基因测序。
虽然 ChatGPT 是单模态(仅基于文本),但新的 AI 模型可以从多种数据类型中学习。这些被称为 多模态基础模型 (MFMs) 的模型可以结合临床记录、放射学扫描和分子数据(例如基因序列)。要理解这对癌症的意义,我们需要弄清楚几点:为什么癌症如此具有挑战性,这些模型是如何工作的,以及它们与以前的 AI 模型有什么不同?
为什么癌症是一个如此具有挑战性的问题?
尽管经过数十年的研究,我们为何仍无法“解决”癌症?癌症与其他疾病根本不同——它是我们自己的细胞,但失控了。突变破坏了正常的细胞过程,劫持细胞分裂并将其反过来对抗我们,无限制地生长。
尽管有大量的数据,自1990年代以来,癌症的生存率仅略有改善(图1a)。尽管治疗有所进步,但受影响的人群正在发生变化——癌症影响的年轻人比以往更多,尤其是年轻女性(图1b和c)。我们需要通过快速适应来跟上癌症的演变。
图1。(a) 尽管自1990年代以来,癌症相关死亡人数有所减少,但这一减少幅度并没有其他疾病(如心脏病)显著。即使在瑞士等提供普遍治疗机会的国家,这一趋势依然存在。图1a改编自**此处。(b,c)** 男性整体癌症发病率有所下降,但女性则有所上升。在50至64岁的人群中,女性的癌症发病率现在超过男性。图1b和c改编自此处。
另一个主要挑战是癌症类型的多样性——存在超过200种癌症类型,每种类型的表现各不相同,即使在同一诊断的患者中。这种不可预测性使得很难确定为何一些患者对治疗反应良好,而另一些则没有。
现在我们拥有大量的数据,以及以越来越详细的层次分析癌症的能力——甚至可以深入到在特定肿瘤细胞中表达的基因和蛋白质!多模态基础模型 (MFMs) 是拼图中缺失的一块——这是一个前所未有的机会,可以对数据进行分析并在不同数据类型之间建立联系。
那么这些模型是如何工作的?
这些模型的核心是一个称为自注意力的机制。在像ChatGPT这样的语言模型中,自注意力有助于确定句子中单词之间的关系,以理解其含义。例如,在句子:“科学家在亚马逊雨林中发现了一种新物种”中,“科学家”使得“发现”和“物种”更加相关,而“亚马逊”则强调了“雨林”。
在应用于癌症数据的模型中,概念是一样的。如果一个多模态基础模型 (MFM) 处理一张组织病理学切片(薄切组织样本的图像)和患者的基因组特征,自注意力机制帮助模型将组织中的重要视觉特征与特定的基因突变关联起来。
但AI已经应用于癌症领域,那么有什么新东西呢?
之前应用于癌症数据的传统AI模型——如放射学扫描——是使用针对特定任务的标记数据进行训练的。例如,成千上万的图像中,放射科医师已将肿瘤标记为“良性”或“恶性”。这些模型学习将图像中的模式与特定标签关联,其能力仅限于将图像标记为良性或恶性。它们无法用于不同的任务,例如识别特定类型的癌症或准确定义其阶段。
多模态基础模型 (MFMs) 比这些传统算法更具适应性,原因如下:
- MFMs中的“F”代表基础——为癌症开发MFM的第一步是使用一个大型、多样化的数据集进行训练,目标广泛。这个过程创建了一个基础模型,意味着AI学习数据中的一般模式,而不是针对特定任务进行定制。
- 那么你如何训练模型以寻找一般模式呢? 训练目标因模型而异,但一种常见的方法是对比学习,在这种方法中,模型学习区分相似和不相似的图像对。例如,模型被训练为识别肿瘤MRI和另一肿瘤MRI是相似的✅,而肿瘤MRI和健康MRI是不同的❌。
- 微调—— 就像吉他可以微调以演奏特定歌曲的正确音符一样,MFMs可以在初始训练后进行调整,以专注于特定的下游任务。例如,上述步骤中的基础模型可以微调以预测肿瘤的侵袭性。
Have any MFMs been published and tested yet?
两种癌症特异性基础模型 — MUSK 和 THREADS — 最近于2025年1月发布。
MUSK — 病理图像与文本:
由斯坦福大学的研究人员开发的 MUSK 已在该领域最大的数据集之一上进行训练——5000万张病理图像和10亿个与病理相关的文本标记。数据输入和模型输出的示例显示在 Figure 2 中。MUSK 在超过8000名患者的数据上进行了测试,在困难的、特定于患者的问题上表现良好,例如黑色素瘤是否会复发,或肺癌或胃食管癌患者是否会对免疫疗法产生反应。
Figure 2. MUSK 的视觉问答能力示例(图源自 this blog)。
THREADS — 病理图像与基因组/转录组特征:
第二个例子是 THREADS,它将迄今为止最大的组织学图像集合与分子数据(如基因信息)配对。它已经在肿瘤分级(预测肿瘤的侵袭性)和几种癌症亚型(胶质母细胞瘤、卵巢癌和前列腺癌)的治疗反应等任务中展现了令人印象深刻的能力。
THREADS 最令人兴奋的特性之一是“分子提示”——以组织学图像作为输入,模型可以找到具有相似分子特征的案例,例如基因突变和癌症亚型。这显示了多模态基础模型 (MFMs) 如何识别跨模态的模式——将组织图像中的视觉特征与潜在的分子特征联系起来。
这可能带来的后果是变革性的——特别是在资源匮乏的环境中。它可以让肿瘤学家在不实际测序组织样本的情况下推断分子特征。然而,为了实现这一点——模型需要经过严格的测试,才能在真实的临床环境中应用。
挑战
这些模型在“真实环境”中的表现如何?
基础模型的前景令人振奋——但它们的性能大多是在经过筛选的数据集上进行测试的。真正的挑战在于评估它们在输入数据的真实世界变异性以及评估其输出的临床医生之间的差异下的表现。
我们如何建立医生对这些模型的信任?
一项最近的麻省理工学院-哈佛大学研究展示了可能的障碍。该研究发现,一个视觉AI模型在X光片上对胸部疾病的诊断准确率为92%,而放射科医师的准确率为74%。然而,当医生使用AI辅助时,他们的准确率仅略微上升至76%。这些模型是决策支持工具,而不是临床医生的替代品,因此学习如何将它们整合到临床工作流程中对于它们的成功至关重要。即使是高度准确的AI模型,如果临床医生不信任它们,也可能无法改善现实世界的结果。
一个解决方案可能是不确定性量化——模型可以指示它们何时不确定。这可以增强对AI驱动决策的信任,确保它们既符合伦理又可靠。通过减少过度自信,它也可能有助于避免假阳性和假阴性,这带来了严重风险:假阴性可能延误救命治疗,而假阳性可能导致不必要的程序和痛苦。偏见是另一个问题——基础模型应包括所有人口统计数据集,以确保它们在不同人群中表现同样良好。如果不这样做,它们可能会加剧不同种族群体之间现有的健康差距。
重要信息
AI 不会单独治愈癌症,但多模态基础模型 (MFMs) 可能会彻底改变我们检测、理解和治疗癌症的方式。通过整合成像、临床记录和遗传数据,这些模型可以揭示以前无法检测到的隐藏模式。底线是什么?AI 不会“治愈”癌症,但它可能是我们对抗癌症最强大的工具之一。