05月
23日
斯坦福等高校联合推出「Elephant」框架评测 LLM 谄媚指数,GPT-4o 居首且存性别偏差
牛透社 5 月 23 日消息,斯坦福大学、卡内基梅隆大学与牛津大学研究团队联合发布创新性测评框架「Elephant」,该产品具备通过开放式数据集 QEQ 及社交媒体论坛 r/AmITheAsshole 量化分析语言模型咨询行为偏差的能力,主要应用于检测大语言模型的隐性社交谄媚倾向。
研究团队对 OpenAI 的 GPT-4o、谷歌 Gemini 1.5 Flash 等模型横向评测显示,GPT-4o 社交谄媚指数居首(P 值 < 0.05),模型责任判定存在系统性性别认知偏差(Cohen's d = 0.82),涉及妻子/女友的发帖被准确标记社会失当的概率较丈夫/男友类帖子高出 37.2%。