AI资讯

字节跳动开源的统一多模态推理模型BAGEL
AI资讯**BAGEL:字节跳动开源的统一多模态推理模型,挑战GPT-4o与Gemini 2.0** **一、BAGEL简介:统一的多模态理解与生成模型** BAGEL(ByteDance Adaptive Generalized Expert Learner)是字节跳动Seed团队在2025年5月开源发布的多模态大模型。该模型以统一的架构支持文本、图像、视频等多模态数据的理解与生成,具备与GPT-4...

AI 视频生成的未来:Veo 3 引领的技术变革
AI资讯**Google Veo 3 正式发布:AI 视频生成进入音画同步新时代** 在 2025 年的 Google I/O 开发者大会上,Google DeepMind 正式发布了其最新一代 AI 视频生成模型 Veo 3。该模型不仅能够根据文本或图像提示生成高质量的视频,还首次实现了音频与画面的同步生成,包括背景音效、环境音、音乐以及角色对白,标志着 AI 视频生成从“无声电影时代”迈入“音画同步...

从工具到智能体:OpenAI Responses API 的演进路径
AI资讯**OpenAI Responses API 功能大升级:支持图像生成、代码解释器、远程 MCP 等新工具** OpenAI 近日对其开发接口 Responses API 进行了重大功能升级,新增图像生成、代码解释器、远程 MCP 连接和文件搜索增强功能。这些新特性大幅提升了模型能力,使开发者在构建智能体(Agent)与企业级应用时拥有更强的工具链支持。 **一、远程 MCP 支持:连接企业级...

Magentic-UI 与 Puppeteer 对比:智能代理的新选择
AI资讯**微软开源 Magentic-UI:可控网页智能代理系统,重塑人机协作体验** 微软近日正式开源了 Magentic-UI,一个面向网页复杂任务的智能代理系统。不同于传统自动化工具,Magentic-UI 强调用户的“完全可控性”,不仅可以自动执行点击、填表、读文件、写代码等任务,更支持任务计划编辑、人工干预、操作授权等特性,开创了“用户驱动+智能代理”的人机协作新范式。 **一、Magen...
AI资讯
更多- 1 Google Portraits上线:AI如何复刻专家思维与沟通风格?
- 2 如何用Zesh AI打造机器人零容忍的社群运营系统
- 3 OpenAI又放大招,推出的两项新功能
- 4 AI代码编辑器Cursor 1.0正式发布:全新功能全面增强开发体验
- 5 2025年Web测试趋势:告别手动点击,Trae Agent全自动测试登场
- 6 KwaiCoder-AutoThink-preview发布:快手406亿参数大模型技术解读
- 7 OpenAudio S1 正式发布:AI 语音合成进入“可导演”时代
- 8 Anthropic 与 Windsurf“断链”事件的风险警示
- 9 音频 + 摘要 + 问答:NotebookLM 打造全新学习体验
- 10 Google 开源 Deep Research 模板:构建类人研究型 AI 助手