MiMo-V2.5-Pro-UltraSpeed

MiMo-V2.5-Pro 的 UltraSpeed 体验模式，万亿参数（1T）旗舰模型，最高突破 1000 tokens/s 推理速度，为极致实时场景而生。

资源有限，每日限量审批，优先面向专业机构开放。立即申请

API 接入前往 Playground 体验

模型规格

模态

输入文本

输出文本

模型能力

极速推理

深度思考

工具调用

流式输出

模型价格

3 倍于 MiMo-V2.5-Pro 的价格提升，10 倍输出体验。MiMo-V2.5-Pro-UltraSpeed 限时体验价：

MiMo-V2.5-Pro-UltraSpeed

MiMo-V2.5-Pro

输入(缓存命中)

¥ 0.075元/百万 tokens

¥ 0.025元/百万 tokens

输入(缓存未命中)

¥ 9元/百万 tokens

¥ 3元/百万 tokens

输出

¥ 18元/百万 tokens

¥ 6元/百万 tokens

输出 TPS

~ (500-1000)

~ (50-100)

MiMo-V2.5-Pro-UltraSpeed

MiMo-V2.5-Pro

输入(缓存命中)

$ 0.0108美元/百万 tokens

$ 0.0036美元/百万 tokens

输入(缓存未命中)

$ 1.305美元/百万 tokens

$ 0.435美元/百万 tokens

输出

$ 2.61美元/百万 tokens

$ 0.87美元/百万 tokens

输出 TPS

~ (500-1000)

~ (50-100)

推理体验

MiMo-V2.5-Pro-UltraSpeed 与 MiMo-V2.5-Pro 推理速度对比

基于 Three.js 的秒启 3D 竞速游戏

接入方式

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ.get("MIMO_API_KEY"),
    base_url="https://api.xiaomimimo.com/v1"
)

completion = client.chat.completions.create(
    model="mimo-v2.5-pro-ultraspeed",
    messages=[
        {
            "role": "system",
            "content": "You are MiMo, an AI assistant developed by Xiaomi. Today is date: Tuesday, December 16, 2025. Your knowledge cutoff date is December 2024."
        },
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Generate a modern-style SaaS landing page as a single file containing only HTML, CSS and JavaScript."
                }
            ]
        }
    ],
    max_completion_tokens=131072,
    stream=True
)

print("\n========== [Thinking Content] ==========\n")
answering = False
for chunk in completion:
    if not chunk.choices:
        continue

    delta = chunk.choices[0].delta
    if hasattr(delta, "reasoning_content") and delta.reasoning_content:
        print(delta.reasoning_content, end='', flush=True)

    if hasattr(delta, "content") and delta.content:
        if not answering:
            print("\n\n========== [Answer Content] ==========\n")
            answering = True
        print(delta.content, end='', flush=True)

1T × 1000 tokens/s

MiMo 算法创新

FP4 混合量化

仅对 MoE Expert 做 FP4 量化，其余保持原精度，FP4 QAT 使得大幅缩减模型体积并榨干硬件带宽的同时，将模型能力保持在近乎无损的水平。

DFlash 投机解码

采用块级 Masked 并行预测替代传统 Draft 自回归，Draft 模型采用 SWA 将预测算力降至常数级，配合 Muon 优化器与自蒸馏保证高接受率，直接转化为推理吞吐的实质提升。

TileRT 系统极致优化

常驻内核引擎

摒弃逐算子启动，计算流水线常驻 GPU 持续流转，全链路预取实现数据搬运与计算极致重叠。

异构流水线协作

Tile 级拆解通信、搬运、张量计算到不同线程束各司其职，将 GPU 演化为持续流动、精密协作的异构执行系统。

在不降智、无需芯片定制的前提下，首次突破 1000 tokens/s。小米打破了“快、强、通用GPU 不可兼得”的行业不可能三角，是极致算法与系统基础设施向着彼此深度收敛、共同演化的必然结果。

立即体验 MiMo-V2.5-Pro-UltraSpeed

无需编写代码，直接在浏览器中感受 1000TPS 极速推理体验

API 接入前往 Playground 体验

MiMo-V2.5-Pro-UltraSpeed

模型规格

模型价格

推荐场景

推理体验

接入方式

1T × 1000 tokens/s

1T × 1000 tokens/s