AI资讯

字节跳动开源的统一多模态推理模型BAGEL

**BAGEL：字节跳动开源的统一多模态推理模型，挑战GPT-4o与Gemini 2.0** **一、BAGEL简介：统一的多模态理解与生成模型** BAGEL（ByteDance Adaptive Generalized Expert Learner）是字节跳动Seed团队在2025年5月开源发布的多模态大模型。该模型以统一的架构支持文本、图像、视频等多模态数据的理解与生成，具备与GPT-4...

AI导航 • 2025年5月26日 • 6

AI 视频生成的未来：Veo 3 引领的技术变革

AI资讯

**Google Veo 3 正式发布：AI 视频生成进入音画同步新时代** 在 2025 年的 Google I/O 开发者大会上，Google DeepMind 正式发布了其最新一代 AI 视频生成模型 Veo 3。该模型不仅能够根据文本或图像提示生成高质量的视频，还首次实现了音频与画面的同步生成，包括背景音效、环境音、音乐以及角色对白，标志着 AI 视频生成从“无声电影时代”迈入“音画同步...

AI导航 • 2025年5月25日 • 24

从工具到智能体：OpenAI Responses API 的演进路径

AI资讯

**OpenAI Responses API 功能大升级：支持图像生成、代码解释器、远程 MCP 等新工具** OpenAI 近日对其开发接口 Responses API 进行了重大功能升级，新增图像生成、代码解释器、远程 MCP 连接和文件搜索增强功能。这些新特性大幅提升了模型能力，使开发者在构建智能体（Agent）与企业级应用时拥有更强的工具链支持。 **一、远程 MCP 支持：连接企业级...

AI导航 • 2025年5月25日 • 9

Magentic-UI 与 Puppeteer 对比：智能代理的新选择

AI资讯

**微软开源 Magentic-UI：可控网页智能代理系统，重塑人机协作体验** 微软近日正式开源了 Magentic-UI，一个面向网页复杂任务的智能代理系统。不同于传统自动化工具，Magentic-UI 强调用户的“完全可控性”，不仅可以自动执行点击、填表、读文件、写代码等任务，更支持任务计划编辑、人工干预、操作授权等特性，开创了“用户驱动+智能代理”的人机协作新范式。 **一、Magen...

AI导航 • 2025年5月25日 • 11

AI资讯

字节跳动开源的统一多模态推理模型BAGEL

AI 视频生成的未来：Veo 3 引领的技术变革

从工具到智能体：OpenAI Responses API 的演进路径

Magentic-UI 与 Puppeteer 对比：智能代理的新选择

AI资讯

AI百科