09月
12日
约翰斯·霍普金斯大学发布多语种预训练模型 mmBERT,多语言 NLP 性能超越 XLM-R
牛透社 9 月 11 日消息,约翰斯·霍普金斯大学研究团队发布多语种预训练模型 mmBERT,该模型支持 8192 令牌上下文处理能力,处理速度较既有模型提升 2 至 4 倍,在 GLUE 英语理解任务(86.3 vs XLM-R 83.3)和 XTREME 多语言理解任务(72.8 vs XLM-R 70.4)中超越业界标杆。
模型提供基础版(3.07 亿参数,22 层 Transformer 架构)与轻量版(1.4 亿参数)两种配置,采用覆盖 1833 种语言、3 万亿令牌的训练语料,首创 256K 规模 Gemma2 分词器与融合 RoPE 旋转位置编码、FlashAttention2 注意力机制的技术组合,通过三阶段渐进式训练策略强化低资源语言表征。研发团队已通过 GitHub 开源项目推动技术共享。