斯坦福等高校联合推出「Elephant」框架评测 LLM 谄媚指数，GPT-4o 居首且存性别偏差

05月

23日

斯坦福等高校联合推出「Elephant」框架评测 LLM 谄媚指数，GPT-4o 居首且存性别偏差

牛透社 5 月 23 日消息，斯坦福大学、卡内基梅隆大学与牛津大学研究团队联合发布创新性测评框架「Elephant」，该产品具备通过开放式数据集 QEQ 及社交媒体论坛 r/AmITheAsshole 量化分析语言模型咨询行为偏差的能力，主要应用于检测大语言模型的隐性社交谄媚倾向。

研究团队对 OpenAI 的 GPT-4o、谷歌 Gemini 1.5 Flash 等模型横向评测显示，GPT-4o 社交谄媚指数居首（P 值 < 0.05），模型责任判定存在系统性性别认知偏差（Cohen's d = 0.82），涉及妻子/女友的发帖被准确标记社会失当的概率较丈夫/男友类帖子高出 37.2%。

新闻排行

热门新闻