Hume AI 发布 EVI 3:全新一代共情式语音 AI,全面超越 GPT-4o
一、EVI 3 是什么?
2025年5月,Hume AI 正式发布其全新语音-语言模型 EVI 3,这是一款能“听懂情绪”的 AI,可以在语音交互中识别你的情感,并用你喜欢的声音、风格、语气进行回应。它不仅仅是语音助手,更是一个具备个性与共情力的智能交互体。
EVI 3 集成了语音识别、自然语言理解、多模态推理和语音合成,具备高度交互性与情绪表达能力。
二、核心能力与技术亮点
- 支持情绪识别:能从语音中识别愤怒、快乐、疲惫等复杂情绪,动态调整语气回应。
- 多风格语音合成:可生成超30种语音风格,如“温柔导师”“兴奋小孩”“沙哑记者”等。
- 提示生成声音个性:通过自然语言描述,即可生成具备“性格”和“情绪”的语音人格。
- 边说边推理:在对话过程中同步完成搜索、理解和推理任务,实现更智能的实时应答。
- 极低延迟:推理响应时间低于300毫秒,语音交互几乎无延迟感。
- 可完全自定义语音形象:开发者可以定义AI的“声音类型”“互动风格”与“行为逻辑”,打造个性化语音AI角色。
三、性能对比:全面领先 GPT-4o
在共情、自然度、表现力、音质、响应速度等 7 个关键维度上,EVI 3 全面优于 OpenAI 的 GPT-4o,并在响应速度上接近语音交互标杆 Sesame,远快于 Gemini 系列。
EVI 3 的语音风格控制与表达多样性,已经远超 GPT-4o 当前语音能力。
四、应用场景广泛
- 情绪客服:识别客户情绪,给予更共情的语气与方案推荐。
- 心理健康陪伴:通过情绪语音反馈提升陪伴感与安全感。
- 教育场景互动:根据学生反应调整语调风格,增强教学效果。
- 沉浸式娱乐:打造个性化虚拟角色,实现拟人互动。
- 可编程语音代理:定制具备专属语音和风格的 AI 助手。
五、上线与体验方式
EVI 3 已于 Hume 官网上线,支持在线测试与演示,开发者可申请接入 API。未来将支持更多语言、本地部署选项以及插件扩展生态。