研究揭示 LLMs 医疗诊断现实场景正确率不足 34.5% 专家呼吁构建人机交互认知桥梁

06月

14日

研究揭示 LLMs 医疗诊断现实场景正确率不足 34.5% 专家呼吁构建人机交互认知桥梁

牛透社消息，VB Transform 峰会聚焦大型语言模型（LLMs）在医疗领域的应用评估。研究显示，2023 年 GPT-4 在美国医学执照考试中正确率达 90%，牛津大学团队论文指出其标准化测试场景病症识别准确率为 94.9%，但现实场景中人类借助 LLMs 的诊断正确率骤降至 34.5%，显著低于对照组基准值 47%。

北卡罗来纳大学专家 Nathalie Volkheimer 强调需构建人机交互认知桥梁以改善结构化提问能力，并呼吁革新度量标准。模拟测试中，LLMs 作为“AI 患者”的正确诊断率提升至 60.7%，但该场景效能无法预测实际应用效果。研究团队指出，信息碎片化和提示词误读导致超半数正确诊断被人类误用。

新闻排行

热门新闻