Xiaomi MiMo-V2-Omni 发布:看得清,听得懂,能动手的全模态 Agent 基座

今天,我们发布小米面向 Agent 时代的全模态基座模型 Xiaomi mimo-v2-omni。

mimo-v2-omni 专为现实世界中复杂的多模态交互与执行场景而生。我们从底层构建了融合文本、视觉、语音的全模态基座,并以统一架构将“感知”与“行动”深度绑定。这不仅打破了传统模型“重理解、轻执行”的局限,更让模型原生具备了多模态感知、工具调用、函数执行及 GUI 操作能力。mimo-v2-omni 可无缝接入各大智能体框架,实现了从理解到操控的跨越,大幅降低了全模态 Agent 的落地门槛。

感知能力:图像、视频、音频,全面对标前沿

行动的前提是准确的感知。我们在所有感知模态上对比了 mimo-v2-omni 与国际领先模型,验证作为智能体的感知能力基础是否牢固。

视觉理解方面,mimo-v2-omni 展现出强大的多学科视觉推理与复杂图表分析能力,超越 Claude Opus 4.6,逼近 Gemini 3 等顶尖闭源模型水平。

音频理解方面,支持从环境声分类、多说话人分离、音频-视觉联合推理,到超过 10 小时连续长音频的深度理解。综合表现超越 Gemini 3 Pro,是当前最强的音频理解基座模型之一。

视频理解方面,支持原生音视频联合输入,实现真正的多模态视频理解。通过创新的视频预训练,模型具备强大的情境感知与未来推理能力。

而当多种模态同时输入时,统一架构的优势进一步放大:跨模态信号相互增强,而非相互竞争。

智能体能力:从理解到完成任务

感知是基础,行动是目标。

一个真正的智能体模型,能够跨越多个模态观察复杂环境、制定计划并执行、在出错时自主恢复,最终端到端地交付结果。

全模态智能体任务

在与真实数字环境交互的评测基准上,mimo-v2-omni 表现优异,比肩 Gemini 3 Pro。前沿的感知能力与原生训练的行动能力形成了复合优势:感知越准确,行动越有效

图片

与此同时,mimo-v2-omni 在纯文本智能体任务上也保持了高度的竞争力。

图片

能力展示

💻 Browser Use场景

Browser Use 是衡量模型 Agentic 能力的试金石:真实世界交互、网页环境动态变化、交互方式异构、且存在主动的对抗机制。感知、决策、行动的闭环在开放环境中持续运转直至任务完成——同样的能力迁移到智能终端、机器人等场景,就是通用智能体的雏形。

  • 替你逛街砍价下单 我们测试了一个端到端购物任务。模型操控浏览器,先在小红书浏览十余篇帖子完成信息搜集与购买建议,再跨平台切到京东多店比价,接着转接人工客服用自然语言砍价,与客服实时交互,最终完成加购下单。模型自主应对了非标准 DOM 结构、多页签上下文管理、以及平台反自动化检测后的流程恢复。

  • TikTok 视频创作发布 我们测试了一个端到端视频发布任务。模型自主设计四组画面并现场合成全部音效,零外部素材依赖;渲染时遇到中文字体报错,自动修复后继续执行;再操控浏览器打开 TikTok 上传页面,分析非标准输入控件完成文案填写,点击发布后继续点赞、评论,回查确认审核通过、视频公开上线。

🗒️ 智能办公场景

通过自然对话,mimo-v2-omni 能够直接生成高质量的 Word、结构化 Excel、排版规范的 PDF 与完整的 PPT。这些生成的文档不再是需要大幅修改的草稿,而是贴合实际需求的高质量“准终稿”。

  • 2026高考志愿智能填报

    我们测试了高考志愿填报任务。模型可以自主发起网络搜索,获取原始信息,调用 skill 处理文件,并输出一份包含详细志愿建议和分级的 Excel 表格文件。

开放 API

mimo-v2-omni 模型现已正式开放 API 服务,支持 256K 上下文长度:

  • 输入 $0.4 / 百万 tokens;

  • 输出 $2 / 百万 tokens。

访问 https://platform.xiaomimimo.com 即刻接入API。

更新时间 2026 年 05 月 28 日
We use cookies and similar technologies of our own to ensure the proper functioning of the website, customize content according to user preferences and analyze users' interactions on the website, as well as their browsing habits. You can find more information in our Cookie Policy. Select an option or go to Cookie Settings to manage your preferences. Learn More.