Xiaomi MiMo-V2-TTS 发布：能说会唱的语音合成大模型

Xiaomi mimo-v2-tts 是小米自主研发的语音合成大模型。它基于自研 Audio Tokenizer 和多码本语音-文本联合建模架构，经过上亿小时语音数据的大规模预训练与多维度强化学习，实现了高度可控的多粒度语音风格控制。mimo-v2-tts 支持从整体风格定调到局部情绪表达的精准调节，能在同一句话内完成语气转折和情感递变；真实还原人类说话的自然韵律；在唱歌时，也能准确表达音高和节奏，自然且富有表现力。

mimo-v2-tts 模型现已可通过 Xiaomi MiMo API 开放平台 (https://platform.xiaomimimo.com) 访问，限时免费。

文本风格控制

灵活自定义文本控制风格

mimo-v2-tts 支持任意自然语言风格描述，不局限于预设关键词，模型能理解并执行任意描述性表达。

情感控制：开心、悲伤、生气、温柔、兴奋、平静……
方言支持：东北话、四川话、河南话、粤语、台湾腔……
角色扮演：孙悟空、林黛玉、钢铁侠……
自由组合短语 — 真正的自然语言控制："撒娇夹子音"、"慵懒刚睡醒有点沙哑"、"深情款款语速慢"、"慷慨激昂"

细粒度声音事件控制

mimo-v2-tts 能够在语音中自然地插入和控制各种副语言声音事件，让生成的语音更加真实、生动。

支持的声音事件：笑声、咳嗽、停顿、思考犹豫、叹气等。

深度文本理解

模型能够智能识别文本中的格式信号，将其转化为对应的语音表达，比如语气标点等，无需额外标注。

格式感知 → 语音表达：

全大写文本（如 "THIS IS IMPORTANT"）→ 自动加重语气强调；
连续重复（如 "不不不不不"）→ 自动映射为对应的语音节奏和情感。

模型在预训练阶段学习了大量文本-语音对齐数据，能够自动将书面格式信号转化为自然的语音表达。

超越语音：方言·角色·歌声

mimo-v2-tts 不止于标准语音生成，还具备丰富的多元表达能力：支持多种方言的自然发音，可进行角色扮演式的风格化演绎，更能实现高质量的歌声合成——让同一个模型既能说、能演、也能唱。

开放 API

mimo-v2-tts 模型现已正式开放 API 服务，访问 https://platform.xiaomimimo.com 即刻接入 API，限时免费。

更新时间 2026 年 05 月 28 日