MiMo-V2-Flash 更新日志 2026/02/04

  1. Thinking 模式代码能力升级: 针对编程场景进行了专门优化,Thinking 模式在 SWE-Bench Verified 上的评分提升至 78.6,代码生成的解决率和质量均有显著提高。

  2. 工具调用准确率大幅提升: 解决了工具使用的稳定性问题,Thinking 模式下的工具调用准确率从 64% 跃升至 97.0%,大幅增强了模型在 Agent 场景下的执行可靠性。

  3. 指令遵循与抗幻觉能力增强:

    • 提升了对特定指令的遵循能力,AA-IFBench 评分达到 72

    • 增强了事实性回答的严谨度,非幻觉率(Non-Hallucination Rate)提升至 52%。

  4. 复杂任务处理优化: 在 Thinking 模式下,针对 Arena-Hard (Hard Prompt) 的处理能力有所增强,评分提升至 60.6,在处理高难度逻辑问题时表现更佳。

  5. 思维链长度缩短: 通过优化思维链生成策略,显著降低了冗余 Token 的消耗。在 AIME25、HMMT 等基准测试中,平均生成长度缩减了 13% 至 30%,在保持模型效果的同时,有效降低了 Token 成本。

mimo-v2-flash-0204 mimo-v2-flash-0112 mimo-v2-flash
SWE-Bench Verified
Non-Thinking
73.7 73.3 73.4
SWE-Bench Verified
Thinking
78.6 74.2 -
Arena-Hard(Hard Prompt)
Non-Thinking
49.3 52.7 46.0
Arena-Hard(Creative Writing)
Non-Thinking
85.0 86.0 78.3
Aren-Hard(Hard Prompt)
Thinking
60.6 58.3 54.1
Arena-Hard(Creative Writing)
Thinking
85.8 90.4 86.2
AA-IFBench 72 - 64
AA-Omniscience Accuracy 19 - 27
AA-Omniscience Non-Hallucination Rate 52% - 9%
Tool call success rate
Thinking
97.0% 64% 44%

Benchmark mimo-v2-flash (Acc) mimo-v2-flash (Avg Tokens) mimo-v2-flash-0204 (Acc) mimo-v2-flash-0204 (Avg Tokens) Length Reduction Ratio (%)
AIME25 94.8 26984 91.1 18879 30.04%
HMMT_Feb_25 94.2 29294 92.9 21470 26.71%
LiveCodeBench-AA 83.2 21488 84.9 18335 14.67%
GPQA-Diamond 83.7 15862 83.8 13659 13.89%

注:模型调用方式和模型名称不变

更新时间 2026 年 05 月 28 日
We use cookies and similar technologies of our own to ensure the proper functioning of the website, customize content according to user preferences and analyze users' interactions on the website, as well as their browsing habits. You can find more information in our Cookie Policy. Select an option or go to Cookie Settings to manage your preferences. Learn More.