Xiaomi MiMo-V2-TTS 发布:能说会唱的语音合成大模型
Xiaomi mimo-v2-tts 是小米自主研发的语音合成大模型。它基于自研 Audio Tokenizer 和多码本语音-文本联合建模架构,经过上亿小时语音数据的大规模预训练与多维度强化学习,实现了高度可控的多粒度语音风格控制。mimo-v2-tts 支持从整体风格定调到局部情绪表达的精准调节,能在同一句话内完成语气转折和情感递变;真实还原人类说话的自然韵律;在唱歌时,也能准确表达音高和节奏,自然且富有表现力。
mimo-v2-tts 模型现已可通过 Xiaomi MiMo API 开放平台 (https://platform.xiaomimimo.com) 访问,限时免费。
文本风格控制
灵活自定义文本控制风格
mimo-v2-tts 支持任意自然语言风格描述,不局限于预设关键词,模型能理解并执行任意描述性表达。
-
情感控制:开心、悲伤、生气、温柔、兴奋、平静……
-
方言支持:东北话、四川话、河南话、粤语、台湾腔……
-
角色扮演:孙悟空、林黛玉、钢铁侠……
-
自由组合短语 — 真正的自然语言控制:"撒娇 夹子音"、"慵懒 刚睡醒 有点沙哑"、"深情款款 语速慢"、"慷慨激昂"
细粒度声音事件控制
mimo-v2-tts 能够在语音中自然地插入和控制各种副语言声音事件,让生成的语音更加真实、生动。
支持的声音事件:笑声、咳嗽、停顿、思考犹豫、叹气等。
深度文本理解
模型能够智能识别文本中的格式信号,将其转化为对应的语音表达,比如语气标点等,无需额外标注。
格式感知 → 语音表达:
-
全大写文本(如 "THIS IS IMPORTANT")→ 自动加重语气强调;
-
连续重复(如 "不不不不不")→ 自动映射为对应的语音节奏和情感。
模型在预训练阶段学习了大量文本-语音对齐数据,能够自动将书面格式信号转化为自然的语音表达。
超越语音:方言·角色·歌声
mimo-v2-tts 不止于标准语音生成,还具备丰富的多元表达能力:支持多种方言的自然发音,可进行角色扮演式的风格化演绎,更能实现高质量的歌声合成——让同一个模型既能说、能演、也能唱。
开放 API
mimo-v2-tts 模型现已正式开放 API 服务,访问 https://platform.xiaomimimo.com 即刻接入 API,限时免费。