MiMo-V2-Flash 更新日志 2026/02/04
-
Thinking 模式代码能力升级: 针对编程场景进行了专门优化,Thinking 模式在 SWE-Bench Verified 上的评分提升至 78.6,代码生成的解决率和质量均有显著提高。
-
工具调用准确率大幅提升: 解决了工具使用的稳定性问题,Thinking 模式下的工具调用准确率从 64% 跃升至 97.0%,大幅增强了模型在 Agent 场景下的执行可靠性。
-
指令遵循与抗幻觉能力增强:
-
提升了对特定指令的遵循能力,AA-IFBench 评分达到 72。
-
增强了事实性回答的严谨度,非幻觉率(Non-Hallucination Rate)提升至 52%。
-
-
复杂任务处理优化: 在 Thinking 模式下,针对 Arena-Hard (Hard Prompt) 的处理能力有所增强,评分提升至 60.6,在处理高难度逻辑问题时表现更佳。
-
思维链长度缩短: 通过优化思维链生成策略,显著降低了冗余 Token 的消耗。在 AIME25、HMMT 等基准测试中,平均生成长度缩减了 13% 至 30%,在保持模型效果的同时,有效降低了 Token 成本。
| mimo-v2-flash-0204 | mimo-v2-flash-0112 | mimo-v2-flash | |
|---|---|---|---|
| SWE-Bench Verified Non-Thinking |
73.7 | 73.3 | 73.4 |
| SWE-Bench Verified Thinking |
78.6 | 74.2 | - |
| Arena-Hard(Hard Prompt) Non-Thinking |
49.3 | 52.7 | 46.0 |
| Arena-Hard(Creative Writing) Non-Thinking |
85.0 | 86.0 | 78.3 |
| Aren-Hard(Hard Prompt) Thinking |
60.6 | 58.3 | 54.1 |
| Arena-Hard(Creative Writing) Thinking |
85.8 | 90.4 | 86.2 |
| AA-IFBench | 72 | - | 64 |
| AA-Omniscience Accuracy | 19 | - | 27 |
| AA-Omniscience Non-Hallucination Rate | 52% | - | 9% |
| Tool call success rate Thinking |
97.0% | 64% | 44% |
| Benchmark | mimo-v2-flash (Acc) | mimo-v2-flash (Avg Tokens) | mimo-v2-flash-0204 (Acc) | mimo-v2-flash-0204 (Avg Tokens) | Length Reduction Ratio (%) |
|---|---|---|---|---|---|
| AIME25 | 94.8 | 26984 | 91.1 | 18879 | 30.04% |
| HMMT_Feb_25 | 94.2 | 29294 | 92.9 | 21470 | 26.71% |
| LiveCodeBench-AA | 83.2 | 21488 | 84.9 | 18335 | 14.67% |
| GPQA-Diamond | 83.7 | 15862 | 83.8 | 13659 | 13.89% |
注:模型调用方式和模型名称不变
更新时间 2026 年 05 月 28 日