Xiaomi MiMo-V2-TTS 发布:能说会唱的语音合成大模型

Xiaomi mimo-v2-tts 是小米自主研发的语音合成大模型。它基于自研 Audio Tokenizer 和多码本语音-文本联合建模架构,经过上亿小时语音数据的大规模预训练与多维度强化学习,实现了高度可控的多粒度语音风格控制。mimo-v2-tts 支持从整体风格定调到局部情绪表达的精准调节,能在同一句话内完成语气转折和情感递变;真实还原人类说话的自然韵律;在唱歌时,也能准确表达音高和节奏,自然且富有表现力。

mimo-v2-tts 模型现已可通过 Xiaomi MiMo API 开放平台 (https://platform.xiaomimimo.com) 访问,限时免费

文本风格控制

灵活自定义文本控制风格

mimo-v2-tts 支持任意自然语言风格描述,不局限于预设关键词,模型能理解并执行任意描述性表达。

  • 情感控制:开心、悲伤、生气、温柔、兴奋、平静……

  • 方言支持:东北话、四川话、河南话、粤语、台湾腔……

  • 角色扮演:孙悟空、林黛玉、钢铁侠……

  • 自由组合短语 — 真正的自然语言控制:"撒娇 夹子音"、"慵懒 刚睡醒 有点沙哑"、"深情款款 语速慢"、"慷慨激昂"

细粒度声音事件控制

mimo-v2-tts 能够在语音中自然地插入和控制各种副语言声音事件,让生成的语音更加真实、生动。

支持的声音事件:笑声、咳嗽、停顿、思考犹豫、叹气等。

深度文本理解

模型能够智能识别文本中的格式信号,将其转化为对应的语音表达,比如语气标点等,无需额外标注。

格式感知 → 语音表达:

  • 全大写文本(如 "THIS IS IMPORTANT")→ 自动加重语气强调;

  • 连续重复(如 "不不不不不")→ 自动映射为对应的语音节奏和情感。

模型在预训练阶段学习了大量文本-语音对齐数据,能够自动将书面格式信号转化为自然的语音表达。

超越语音:方言·角色·歌声

mimo-v2-tts 不止于标准语音生成,还具备丰富的多元表达能力:支持多种方言的自然发音,可进行角色扮演式的风格化演绎,更能实现高质量的歌声合成——让同一个模型既能说、能演、也能唱。

开放 API

mimo-v2-tts 模型现已正式开放 API 服务,访问 https://platform.xiaomimimo.com 即刻接入 API,限时免费。

更新时间 2026 年 05 月 28 日
We use cookies and similar technologies of our own to ensure the proper functioning of the website, customize content according to user preferences and analyze users' interactions on the website, as well as their browsing habits. You can find more information in our Cookie Policy. Select an option or go to Cookie Settings to manage your preferences. Learn More.