06月

14日

  • 研究揭示 LLMs 医疗诊断现实场景正确率不足 34.5% 专家呼吁构建人机交互认知桥梁

    牛透社消息,VB Transform 峰会聚焦大型语言模型(LLMs)在医疗领域的应用评估。研究显示,2023 年 GPT-4 在美国医学执照考试中正确率达 90%,牛津大学团队论文指出其标准化测试场景病症识别准确率为 94.9%,但现实场景中人类借助 LLMs 的诊断正确率骤降至 34.5%,显著低于对照组基准值 47%。

    北卡罗来纳大学专家 Nathalie Volkheimer 强调需构建人机交互认知桥梁以改善结构化提问能力,并呼吁革新度量标准。模拟测试中,LLMs 作为“AI 患者”的正确诊断率提升至 60.7%,但该场景效能无法预测实际应用效果。研究团队指出,信息碎片化和提示词误读导致超半数正确诊断被人类误用。

意见反馈
返回顶部