Qwen3 模型推出 MLX 格式:支持 4bit/6bit/8bit/BF16 多级量化,优化 Apple Silicon 体验
2025 年 6 月,阿里巴巴 Qwen 团队宣布正式发布 Qwen3 系列模型的 MLX 格式版本。此次发布支持 4bit、6bit、8bit 与 BF16 四种量化级别,全面适配 Apple Silicon 平台,满足不同精度与性能需求。
什么是 MLX?
MLX 是 Apple 官方推出的开源推理框架,专为 macOS 和 Apple Silicon 芯片优化,具备以下特点:
- 轻量级无依赖:不依赖 PyTorch 或 CUDA;
- 原生支持 Apple 硬件加速;
- 快速部署与加载,适合本地推理。
MLX 框架已被广泛用于 LLM 本地部署,尤其适合 M1、M2、M3 系列芯片用户。
Qwen3 MLX 版本亮点
此次 Qwen3 MLX 发布涵盖从 Qwen3-0.5B 到 Qwen3-72B,甚至包括 MoE 架构(如 Qwen3-MoE-A2.7B)。主要特性包括:
- 多量化级别可选:4bit/6bit/8bit/BF16,灵活应对不同硬件资源;
- 完整推理模板支持:包含对话格式、system prompt 与思维模式切换;
- 加载速度快、显存占用低:8bit 与 4bit 在本地表现出色;
- 模型性能优异:在 MMLU、GSM8K、HumanEval 等基准测试中成绩突出。
使用示例:快速上手 Qwen3-MLX
用户可通过 Hugging Face 或 ModelScope 下载模型,以下为基本推理代码:
from mlx_lm import load, generate
model, tokenizer = load("mlx-community/Qwen3-7B-8bit") # 替换为任意量化版本
prompt = "请介绍一下 Qwen3 的主要特点。"
response = generate(model, tokenizer, prompt=prompt)
print(response)