MiniMax-M1:开源突破,百万 token 长上下文的新标杆
中国 AI 独角兽 MiniMax 推出开源 LLM「MiniMax‑M1」,刷新了长上下文与训练效率的新纪录:
- 百万 token 超长上下文:支持 1 000 000 token 输入、80 000 token 输出,是目前开源模型中最长上下文窗口。
- 混合专家模型 + Lightning Attention:基于 4560 亿参数,通过 MoE 架构和 Lightning Attention 实现高效推理,仅为 DeepSeek-R1 的 25% FLOPs。
- 强化学习高效训练:创新 RL 算法 CISPO + 混合注意力,512 块 H800 GPU 三周完成训练,仅耗资 53.47 万美元。
📊 核心亮点解析
1. 跻身长上下文世界冠军 🔥
与 GPT‑4o(128k token)和 Gemini 2.5 Pro(1 000 000 token)相比,MiniMax‑M1 实现了更长的输出能力(80k token),更适合对本地长文档、全书级语料进行分析处理。
2. 架构与推理效率兼顾
- **参数与激活:**4560 亿参数,单 token 激活约 459 亿。
- **推理效率:**Lightning Attention 仅需 DeepSeek‑R1 的 25% FLOPs,适合实际部署中的高效推理场景。
3. 训练成本极具竞争力
- **训练成本:**仅 534,700 美元,远低于主流闭源模型的训练——DeepSeek‑R1(500–600 万美元)、OpenAI GPT‑4(超过 1 亿美元)。
- **CISPO 算法贡献:**利用剪辑重要性采样权重替代 token 更新,提升 RL 效率并降低成本。
4. Benchmark 表现领先
MiniMax‑M1‑80k 在主流评测中的表现:
- AIME 2024 数学竞赛:86.0%
- LiveCodeBench(代码生成):65.0%
- SWE‑bench 验证:56.0%
- TAU‑bench:62.8%
- OpenAI MRCR 四选一:73.4%
性能媲美甚至超越多数开源大模型,并逼近商业闭源系统。
🎯 开发者 & 企业价值
- **无需授权费:**采用 Apache 2.0 开源许可,商用级灵活部署。
- **部署便利:**可在 Hugging Face 和 GitHub 下载两个版本(40k / 80k 思考预算);支持 vLLM、Transformers 等主流推理工具。
- **Agent 能力:**支持结构化函数调用、工具调用、代码助手、文档总结、聊天机器人等 agentic 功能。
📌 总结:开源 LLM 的新纪元
MiniMax‑M1 是首个真正实现百万级训练上下文、商用级长文本能力、低成本 RL 强化学习的开源大模型,为开发者和企业提供了高度性价比的先进基础模型。作为 MiniMaxWeek 的第一弹,相信未来还将有更多突破发布。