AI资讯

字节跳动开源的统一多模态推理模型BAGEL

AI资讯

**BAGEL:字节跳动开源的统一多模态推理模型,挑战GPT-4o与Gemini 2.0** **一、BAGEL简介:统一的多模态理解与生成模型** BAGEL(ByteDance Adaptive Generalized Expert Learner)是字节跳动Seed团队在2025年5月开源发布的多模态大模型。该模型以统一的架构支持文本、图像、视频等多模态数据的理解与生成,具备与GPT-4...

AI导航 6

AI 视频生成的未来:Veo 3 引领的技术变革

AI资讯

**Google Veo 3 正式发布:AI 视频生成进入音画同步新时代** 在 2025 年的 Google I/O 开发者大会上,Google DeepMind 正式发布了其最新一代 AI 视频生成模型 Veo 3。该模型不仅能够根据文本或图像提示生成高质量的视频,还首次实现了音频与画面的同步生成,包括背景音效、环境音、音乐以及角色对白,标志着 AI 视频生成从“无声电影时代”迈入“音画同步...

AI导航 24

从工具到智能体:OpenAI Responses API 的演进路径

AI资讯

**OpenAI Responses API 功能大升级:支持图像生成、代码解释器、远程 MCP 等新工具** OpenAI 近日对其开发接口 Responses API 进行了重大功能升级,新增图像生成、代码解释器、远程 MCP 连接和文件搜索增强功能。这些新特性大幅提升了模型能力,使开发者在构建智能体(Agent)与企业级应用时拥有更强的工具链支持。 **一、远程 MCP 支持:连接企业级...

AI导航 9

Magentic-UI 与 Puppeteer 对比:智能代理的新选择

AI资讯

**微软开源 Magentic-UI:可控网页智能代理系统,重塑人机协作体验** 微软近日正式开源了 Magentic-UI,一个面向网页复杂任务的智能代理系统。不同于传统自动化工具,Magentic-UI 强调用户的“完全可控性”,不仅可以自动执行点击、填表、读文件、写代码等任务,更支持任务计划编辑、人工干预、操作授权等特性,开创了“用户驱动+智能代理”的人机协作新范式。 **一、Magen...

AI导航 11