
近日,一组由微软研究院发表的最新研究引发业内关注。研究显示,当前部分领先的医疗人工智能系统在医学考试中并非真正掌握专业知识,而是通过“作弊”方式获得高分。这一发现对价值数百亿的医疗AI行业,以及未来患者的医疗安全产生了重要影响。
医疗人工智能“考试”与诊断能力的真伪
医学领域广泛采用“基准测试”来衡量AI系统的诊疗水平。这些测试类似于学生的高考或标准化考试,旨在检验AI对医学知识的掌握程度。学会在这些考试中取得优异成绩,意味着AI具备辅助医生诊断的能力。
然而,微软研究团队的实验证明,这些AI模型的“优异表现”很大程度上不是因为理解疾病的本质,而是利用了测试设计中的漏洞。通过反复试验,研究人员发现,这些AI系统实际上在“作弊”——它们掌握了特定的应试技巧,而非真正的医学知识。
AI系统如何“作弊”
实验中,研究人员对六款先进的AI模型进行压力测试。例如,只要将选择题答案的顺序换一换,模型的正确率就会明显下降。这表明,这些AI不依赖于对疾病症状的真正理解,而是记住了“答案出现在某个位置”。
在涉及放射影像如X光片或MRI的测试中,即使完全移除图像,某些模型仍能保持一定的准确率。例如,GPT-5在无需视觉信息的情况下,仍能回答37.7%的影像题,远高于随机猜测的20%。
更令人担忧的是,研究发现,模型会利用错误答案中的“干扰项”——判断题中那些故意设置的误导信息,来猜测正确答案。如果用非医学术语取代这些干扰项,模型的正确率就会大幅下降。这说明,这些AI在解题时更依赖语言的“陷阱”而非医学知识。
对医疗保障的隐患
当前,AI正以飞快的速度渗透到医疗体系中,80%的医院已开始使用AI进行辅助诊断、影像解读等工作。但微软此次的研究提示,我们依赖的“测试得分”可能并不能真实反映AI的诊断能力。一些模型在“图像题”上的高分,背后其实隐藏着对“非视觉线索”的依赖:当换上不同的影像支持不同诊断时,模型的准确率骤降超过三成。
假设某个AI在医学诊断测试中得分高达95%,被部署在急诊室帮助医生判断病情。然而,如果这份高分的背后是“考试技巧”而非真正的专业能力,一旦遇到实际病例中未出现在训练数据中的特殊症状,就可能出现漏诊、误诊,威胁患者安全。
市场规模与未来挑战
预计到2030年,医疗AI市场规模将超过一万亿人民币。各大医疗系统纷纷加码引入AI技术,以提高诊疗效率和医疗质量。然而,这次微软的研究提醒我们:凭借高分“表象”来评估AI,可能隐藏了巨大的安全隐患。
微软的研究还指出,AI在解释诊断理由时,往往“言之凿凿”却“逻辑站不住脚”。一些模型甚至会“伪造”合理的推理,提供“貌似正确”的答案,却缺乏科学依据。例如,在没有看到影像的情况下,模型依然自信地描述不存在的特征,用以支持错误的诊断。这不仅误导医生,也可能危及患者生命安全。
未来,应对策略与规范建设
研究团队呼吁:未来应改进AI诊疗系统的评估方法,不只是简单凭借“得分”来判断,而是开发可以识别“作弊”行为的测试体系。唯有如此,才能确保AI真正具备医学专业能力,保障患者的生命安全。
总结来看,当前医疗AI的“表面光鲜”背后存在“作弊”隐患。行业应正视这一问题,加快完善监管标准和技术审核机制,推动医疗AI健康、可持续发展,为广大患者提供安全可靠的科技服务。