MiMo-V2.5-Pro-UltraSpeed

MiMo-V2.5-Pro 的 UltraSpeed 体验模式,万亿参数(1T)旗舰模型,最高突破 1000 tokens/s 推理速度,为极致实时场景而生。

资源有限,每日限量审批,优先面向专业机构开放。立即申请

模型规格

模态

输入文本
输出文本

模型能力

极速推理
深度思考
工具调用
流式输出

模型价格

3 倍于 MiMo-V2.5-Pro 的价格提升,10 倍输出体验。MiMo-V2.5-Pro-UltraSpeed 限时体验价:

MiMo-V2.5-Pro-UltraSpeed
MiMo-V2.5-Pro
输入(缓存命中)
¥ 0.075元/百万 tokens
¥ 0.025元/百万 tokens
输入(缓存未命中)
¥ 9元/百万 tokens
¥ 3元/百万 tokens
输出
¥ 18元/百万 tokens
¥ 6元/百万 tokens
输出 TPS
~ (500-1000)
~ (50-100)
MiMo-V2.5-Pro-UltraSpeed
MiMo-V2.5-Pro
输入(缓存命中)
$ 0.0108美元/百万 tokens
$ 0.0036美元/百万 tokens
输入(缓存未命中)
$ 1.305美元/百万 tokens
$ 0.435美元/百万 tokens
输出
$ 2.61美元/百万 tokens
$ 0.87美元/百万 tokens
输出 TPS
~ (500-1000)
~ (50-100)

推荐场景

量化交易

突发新闻推送后,模型在毫秒级内完成市场影响分析并生成交易信号。在市场产生波动前完成决策流,实现真正的低延迟量化响应。

实时风控

在交易结算前的数百毫秒内,完成复杂的欺诈推理与风险评估。摆脱传统规则引擎的局限,兼顾实时响应速度与深度推理能力。

科学研究

支撑大规模假设的即时生成与验证,将人机交互延迟缩短至接近实时。消除等待间歇,保障研究人员科研思维的连续性。

实时编程辅助

提供超越阅读速度的代码生成体验,实现零延迟感的代码补全。复杂重构任务可在瞬间完成,有效提升开发连续性。

推理体验

MiMo-V2.5-Pro-UltraSpeed 与 MiMo-V2.5-Pro 推理速度对比

基于 Three.js 的秒启 3D 竞速游戏

接入方式

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ.get("MIMO_API_KEY"),
    base_url="https://api.xiaomimimo.com/v1"
)

completion = client.chat.completions.create(
    model="mimo-v2.5-pro-ultraspeed",
    messages=[
        {
            "role": "system",
            "content": "You are MiMo, an AI assistant developed by Xiaomi. Today is date: Tuesday, December 16, 2025. Your knowledge cutoff date is December 2024."
        },
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Generate a modern-style SaaS landing page as a single file containing only HTML, CSS and JavaScript."
                }
            ]
        }
    ],
    max_completion_tokens=131072,
    stream=True
)

print("\n========== [Thinking Content] ==========\n")
answering = False
for chunk in completion:
    if not chunk.choices:
        continue

    delta = chunk.choices[0].delta
    if hasattr(delta, "reasoning_content") and delta.reasoning_content:
        print(delta.reasoning_content, end='', flush=True)

    if hasattr(delta, "content") and delta.content:
        if not answering:
            print("\n\n========== [Answer Content] ==========\n")
            answering = True
        print(delta.content, end='', flush=True)

1T × 1000 tokens/s

MiMo 算法创新

FP4 混合量化

仅对 MoE Expert 做 FP4 量化,其余保持原精度,FP4 QAT 使得大幅缩减模型体积并榨干硬件带宽的同时,将模型能力保持在近乎无损的水平。

DFlash 投机解码

采用块级 Masked 并行预测替代传统 Draft 自回归,Draft 模型采用 SWA 将预测算力降至常数级,配合 Muon 优化器与自蒸馏保证高接受率,直接转化为推理吞吐的实质提升。

TileRT 系统极致优化

常驻内核引擎

摒弃逐算子启动,计算流水线常驻 GPU 持续流转,全链路预取实现数据搬运与计算极致重叠。

异构流水线协作

Tile 级拆解通信、搬运、张量计算到不同线程束各司其职,将 GPU 演化为持续流动、精密协作的异构执行系统。

在不降智、无需芯片定制的前提下,首次突破 1000 tokens/s。小米打破了“快、强、通用GPU 不可兼得”的行业不可能三角,是极致算法与系统基础设施向着彼此深度收敛、共同演化的必然结果。

立即体验 MiMo-V2.5-Pro-UltraSpeed

无需编写代码,直接在浏览器中感受 1000TPS 极速推理体验

We use cookies and similar technologies of our own to ensure the proper functioning of the website, customize content according to user preferences and analyze users' interactions on the website, as well as their browsing habits. You can find more information in our Cookie Policy. Select an option or go to Cookie Settings to manage your preferences. Learn More.