多位三甲医院主任谈AI诊断：缺乏判断的人类拖了后腿？

中国经营报

2026年01月06日 21:30:11

9人参与5评论

中经记者索寒雪北京报道

头疼到底是“头疼”，还是“发烧”引发的连锁反应？同一个大模型，为什么不同的人问，答案会南辕北辙？患者把症状说得越“简单”，AI给出的诊断就越可能偏离真相？在“辨证论治”的中医体系里，AI究竟能帮到哪一步？

近日，由中国人民大学国家发展与战略研究院主办的“潭思周会”上，多位来自北京三甲医院的专科主任向《中国经营报》记者表示，在医疗诊断场景中，AI结论是否“靠谱”，关键并不在于“用哪个模型”，而在于“能否问对问题”、能否抓住症状背后的核心线索。若患者本身无法分辨疾病的深层原因，AI输出的结果往往难以直接作为诊疗依据。

当记者追问“哪些大模型在医疗诊断中相对靠谱”时，多位三甲医院主任一致认为：与其纠结模型排名，不如先解决“怎么问”。

北京协和医院神经内科主任医师朱以诚教授直言，这个问题与模型类型关系不大，所谓“靠谱与否”，本质上是“提问的艺术”。她指出：“用户甚至可以通过调整问题，让模型给出自己想要的回答。但病人自己描述病情时，往往抓不住重点，比如只说‘头疼’，实际核心症状可能是‘发烧’。医生能做的，是通过追问和引导把关键信息提炼出来——这才是病例诊断的核心。我们在病例比赛中也常遇到这种情况：同样的模型，不同的人去问，结果可能完全不同。”

在多位医生看来，AI缺的不是“数据”，而是对症状的“深度理解”。

首都医科大学宣武医院神经肌肉病专科主任笪宇威进一步补充：“AI诊断的靠谱性，从来不是‘模型好不好’的问题，而是‘有没有问对问题’。比如病人说‘双下肢无力’，AI可能直接判定为‘肌力下降’，但医生会进一步分辨：这也可能是肌张力变化或共济失调导致的步态异常。AI缺乏对症状的深度解读能力，这是它很难替代医生的原因，尤其在神经科这类高度依赖临床经验的领域。”

多位受访医生强调，现阶段AI给出的结论仍不能盲目信任。

首都医科大学附属北京中医医院消化中心主任张声生分析：“对于人工智能助手，如ChatGPT或豆包等，它的结论往往依赖输入信息的背景。背景信息不同，可能导致迥异的结论。因此，不能简单地说哪个模型更好或更不靠谱。人工智能在提供科普知识方面可能有一定帮助，但完全依赖它来治病显然不可行。”

从中医视角看，AI在“精准辨证”上的局限更为突出。

首都医科大学附属北京中医医院消化中心副主任赵鲁卿教授补充：“中医讲究‘辨证论治’，很多证候比如‘脾胃湿热’‘肝郁脾虚’，病人本身就很难精准描述，更难转化为可供模型准确识别的输入。所以很少有病人拿着AI结果来找中医。不过就我个人日常文字工作所需而言，DeepSeek相对靠谱。”

多位医生普遍认为，医生的价值在于：能从患者混乱、碎片化的主诉中提炼核心症状，识别真正的诊断线索，并通过专业追问与临床经验完成判断与排除——这正是AI目前难以“学会”的部分。