MiMo-V2.5-Pro-UltraSpeed
MiMo-V2.5-Pro 的 UltraSpeed 体验模式,万亿参数(1T)旗舰模型,最高突破 1000 tokens/s 推理速度,为极致实时场景而生。
资源有限,每日限量审批,优先面向专业机构开放。立即申请
模型规格
模态
模型能力
模型价格
3 倍于 MiMo-V2.5-Pro 的价格提升,10 倍输出体验。MiMo-V2.5-Pro-UltraSpeed 限时体验价:
推荐场景
量化交易
突发新闻推送后,模型在毫秒级内完成市场影响分析并生成交易信号。在市场产生波动前完成决策流,实现真正的低延迟量化响应。
实时风控
在交易结算前的数百毫秒内,完成复杂的欺诈推理与风险评估。摆脱传统规则引擎的局限,兼顾实时响应速度与深度推理能力。
科学研究
支撑大规模假设的即时生成与验证,将人机交互延迟缩短至接近实时。消除等待间歇,保障研究人员科研思维的连续性。
实时编程辅助
提供超越阅读速度的代码生成体验,实现零延迟感的代码补全。复杂重构任务可在瞬间完成,有效提升开发连续性。
推理体验
MiMo-V2.5-Pro-UltraSpeed 与 MiMo-V2.5-Pro 推理速度对比
基于 Three.js 的秒启 3D 竞速游戏
接入方式
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ.get("MIMO_API_KEY"),
base_url="https://api.xiaomimimo.com/v1"
)
completion = client.chat.completions.create(
model="mimo-v2.5-pro-ultraspeed",
messages=[
{
"role": "system",
"content": "You are MiMo, an AI assistant developed by Xiaomi. Today is date: Tuesday, December 16, 2025. Your knowledge cutoff date is December 2024."
},
{
"role": "user",
"content": [
{
"type": "text",
"text": "Generate a modern-style SaaS landing page as a single file containing only HTML, CSS and JavaScript."
}
]
}
],
max_completion_tokens=131072,
stream=True
)
print("\n========== [Thinking Content] ==========\n")
answering = False
for chunk in completion:
if not chunk.choices:
continue
delta = chunk.choices[0].delta
if hasattr(delta, "reasoning_content") and delta.reasoning_content:
print(delta.reasoning_content, end='', flush=True)
if hasattr(delta, "content") and delta.content:
if not answering:
print("\n\n========== [Answer Content] ==========\n")
answering = True
print(delta.content, end='', flush=True)1T × 1000 tokens/s
MiMo 算法创新
FP4 混合量化
仅对 MoE Expert 做 FP4 量化,其余保持原精度,FP4 QAT 使得大幅缩减模型体积并榨干硬件带宽的同时,将模型能力保持在近乎无损的水平。
DFlash 投机解码
采用块级 Masked 并行预测替代传统 Draft 自回归,Draft 模型采用 SWA 将预测算力降至常数级,配合 Muon 优化器与自蒸馏保证高接受率,直接转化为推理吞吐的实质提升。
TileRT 系统极致优化
常驻内核引擎
摒弃逐算子启动,计算流水线常驻 GPU 持续流转,全链路预取实现数据搬运与计算极致重叠。
异构流水线协作
Tile 级拆解通信、搬运、张量计算到不同线程束各司其职,将 GPU 演化为持续流动、精密协作的异构执行系统。
在不降智、无需芯片定制的前提下,首次突破 1000 tokens/s。小米打破了“快、强、通用GPU 不可兼得”的行业不可能三角,是极致算法与系统基础设施向着彼此深度收敛、共同演化的必然结果。
1T × 1000 tokens/s
MiMo 算法创新
FP4 混合量化
仅对 MoE Expert 做 FP4 量化,其余保持原精度,FP4 QAT 使得大幅缩减模型体积并榨干硬件带宽的同时,将模型能力保持在近乎无损的水平。
DFlash 投机解码
采用块级 Masked 并行预测替代传统 Draft 自回归,Draft 模型采用 SWA 将预测算力降至常数级,配合 Muon 优化器与自蒸馏保证高接受率,直接转化为推理吞吐的实质提升。
TileRT 系统极致优化
常驻内核引擎
摒弃逐算子启动,计算流水线常驻 GPU 持续流转,全链路预取实现数据搬运与计算极致重叠。
异构流水线协作
Tile 级拆解通信、搬运、张量计算到不同线程束各司其职,将 GPU 演化为持续流动、精密协作的异构执行系统。
在不降智、无需芯片定制的前提下,首次突破 1000 tokens/s。小米打破了“快、强、通用GPU 不可兼得”的行业不可能三角,是极致算法与系统基础设施向着彼此深度收敛、共同演化的必然结果。
立即体验 MiMo-V2.5-Pro-UltraSpeed
无需编写代码,直接在浏览器中感受 1000TPS 极速推理体验