04月
09日
Deep Cogito 发布开源语言模型,性能超越 Llama
美国东部时间 2025 年 4 月 8 日消息,初创公司 Deep Cogito Inc. 推出了一系列语言模型,并声称这些模型的表现可以超越同等规模的开源替代品。
据TechCrunch报道,该公司成立于 2024 年 6 月,由前谷歌 LLC 员工 Drishan Arora 和 Dhruv Malhotra 创立。Arora 曾是谷歌的高级软件工程师,Malhotra 曾是谷歌 DeepMind 机器学习实验室的产品经理。两人从 South Park Commons 获得了一笔投资,具体金额未透露。
Deep Cogito 的开源语言模型系列被称为 Cogito v1 系列。该算法有五种规模,参数数量从 30 亿到 700 亿不等。它们基于开源 Llama 和 Qwen 语言模型系列,分别由 Meta Platforms Inc. 和阿里巴巴集团控股有限公司开发。
Deep Cogito 的模型采用混合架构。它们结合了标准大型语言模型(可近乎即时地回答简单提示)和推理模型的元素。后者的算法花费更多时间生成答案,从而提高了输出质量。Deep Cogito 的模型可以即时响应提示,也可以根据用户偏好执行更广泛的推理。
该公司使用一种名为 IDA 的新训练方法定制其模型。该技术与蒸馏法(一种广泛使用的开发硬件高效语言模型的方法)有一些相似之处。
通过提炼,开发人员将一系列提示发送到硬件密集型的 LLM 并保存答案。然后,他们将这些答案输入到更高效的模型中。后者因此吸收了一些较大的 LLM 的知识,这意味着它可以使用更少的硬件来回答相同的问题。
Deep Cogito 的 IDA 方法同样使用 LLM 的提示答案进行训练。不同之处在于,这些答案不是用于改进另一个更高效的硬件模型,而是用于改进生成答案的 LLM。
Deep Cogito 的研究人员在一篇博文中详细介绍了 IDA 工作流程涉及两个步骤。
首先,法学硕士使用与推理模型处理数据所依赖的方法“类似”的方法来生成提示答案。这些方法增加了法学硕士生成输出所需的时间。一旦提示答案准备好,法学硕士就会“将高级智能提炼回模型参数,以内化放大的能力”,研究人员解释道。
“通过重复这两个步骤,每个循环都建立在前一次迭代的进展之上,”他们在博客文章中详细阐述道。“这个迭代框架创造了一个正反馈循环。”
在内部测试中,Deep Cogito 将其最先进的模型与 Meta 的 Llama 3.3 进行了比较。两种算法都具有 700 亿个参数。Deep Cogito 表示,其模型在评估中使用的所有七个基准测试中均优于 Llama 3.3。
Deep Cogito 表示,其小型模型同样优于同等规模的开源替代方案。这些算法分别具有 30 亿、80 亿、140 亿和 320 亿个参数。Deep Cogito 计划在未来几周内发布新模型,这些模型将具有 1090 亿到 6710 亿个参数。