Xiaomi MiMo-V2.5-TTS-Series + ASR 正式发布:你的声音,随心所“驭”

图片

语音技术正在经历这样的变化:从“能听能读”,迈向“精准理解与灵活表达”。在真实的创作与交互场景中,机器不仅要穿透复杂的口语环境——方言口音、环境噪音、多人同时说话——还要能用声音塑造角色、拿捏情绪,让表达不再只是传递字词,而是传递感受。

无论是创作者,还是依赖语音技术的业务,真正需要的,是一个能被语言自由调度的语音系统:输入一段嘈杂的会议录音,它能准确转写;输入一句“这儿要低沉愤怒”的导演笔记,它便能生成恰如其分的演绎。 听懂一切,更能表达一切。

为此,我们今天正式发布 MiMo-V2.5-TTS Seriesmimo-v2.5-asr —— 一套面向 Agent 时代的全链路语音模型系列,覆盖识别与合成两大核心能力,让语音的输入与输出都可以被语言自由调度。

  • MiMo-V2.5-TTS Series 包含三款模型,现已登陆小米 MiMo 开放平台,并且限时免费。三者共享统一的风格指令遵循、音频标签控制与文本理解能力,让声音表现可以被语言精细调度,分别覆盖三种典型创作需求:

    • mimo-v2.5-tts: 内置多款高质量精品音色,支持语速、情绪、语气等精细化控制,开箱即用,满足多场景表达。

    • mimo-v2.5-tts-voicedesign: 一句话快速定义并生成全新音色,让音色创作更直观、更高效。

    • mimo-v2.5-tts-voiceclone: 少量样本高保真复刻目标音色,同时保持稳定的风格指令遵循与音频标签控制能力。

MiMo-Studio 快速体验地址:https://aistudio.xiaomimimo.com/#/c

  • mimo-v2.5-asr 正式开源。 模型在中英双语、中文方言、Code-Switch、强噪音、多说话人等复杂真实场景下的语音识别性能达到业界领先水平,为 Agent 提供清晰可靠的语音转写,确保每一次交互都建立在精准的理解之上。

mimo-v2.5-tts:让声音,成为每个人的创造力

TTS系列核心特点

精准的风格指令遵循能力

从简短的单句指令,到一整份导演笔记,模型都能稳定理解并遵循,覆盖情绪、语气、语速、发声方式、语言风格等多个维度。指令不必写成结构化参数——像给演员说戏一样把想要的感觉描述出来,模型就会落到对应的演绎之中。

对于一致性要求更高的场景——有声剧、游戏 NPC、角色化对话等——模型还支持导演剧本级的结构化输入:把人物场景详细指导分层描述,各层按自己的节奏独立更新、自由组合。这种分层既让角色的音色身份贯穿始终,也让每一句话的表演都能被单独控制。

Case1

Instruct :

声音低沉沙哑一点,像个历经沧桑的老前辈在讲述传奇人物。语气里带点由衷的敬佩,娓娓道来。

Text:

街口那个老周啊,媳妇走得早,一个人拉扯俩娃,白天蹬三轮,晚上还去夜市摆摊修鞋。现在俩孩子都有出息喽,想接他去城里享福——他不去,就守着那间小铺子。哎,人哪,骨头硬,心里头就踏实。

Audio(Voice name:冰糖):

Case2

Instruct :

CHARACTER
曾是守护九天的神祇,见证了凡人的无药可救后,决定以灭世来完成最终的净化。他的心中装满悲悯,但手段是绝对的屠戮。

SCENE
悬浮于崩塌的祭坛之上,俯视下方在火海中哀嚎、曾奉他为信仰的信徒。他在降下最后的毁灭前,发出神圣却残忍的叹息。

DIRECTION
发声机制与共鸣:充分打开胸腔共鸣,制造一种神圣的回音感。声音位置靠后,音色如古钟般低沉且带有金属质感的磁性。
声调与韵律:四声(去声)的下落要极其平缓,不要砸实,带有一种吟诵古籍般的从容与宏大。字句之间的停顿拉长,展现出视万物为刍狗的威压。
气声与实声的较量:在说前两句时,实声饱满,高高在上;但在说出“闭上眼吧”时,声音突然混入大量疲惫的气息,神性开始出现裂痕,流露出勉强的残忍。
咬字细节:古风词汇(如“垂怜”、“沉疴”、“剔骨刮毒”)咬字要深,声母起音圆润而不尖锐。结尾的最后半句,几乎全部转化为气声,像是在哄睡一个婴儿,将残酷包裹在极致的悲哀之中。

Text:

你们求我垂怜,求我降下甘霖洗净这浊世。可这世间的沉疴,唯有烈火能剔骨刮毒。闭上眼吧。这业火烧起来的时候,一点也不疼。

Audio(Voice name:白桦):

灵活的音频标签控制能力

除了段落级的自然语言指令,模型还支持行内音频标签,用于在文本特定位置精准控制情绪、状态或风格。标签支持中英双语和开放文本描述,允许在同一段文本中灵活混用。从简单的情感标注,到多标签叠加、细粒度排布的复杂编排,模型都能稳定表达,在标签的表达力和组合稳定性上均有出色表现。

Text:

(调侃) 老张你当时不是说这条航线稳得很吗……

(模仿自信,提高音量) “系统全绿,放心走。”

(突然停顿) ……现在呢?

(爆发,愤怒压不住) 现在整艘船都在报警!你管这叫“放心”?!

(声音变轻) 不过……你看那外面,裂开的星云像在呼吸一样。

(急促|呼喊) 别断通讯!喂!再撑十秒!十秒!!

(低声|情绪塌陷般平静) ……算了。

(轻笑|带点释然) 也挺好,至少是一起看的。

Audio:

丰富的文本理解能力

即便没有任何 prompt,也没有任何标签——就是一段最普通的文本——模型也能直接表现出其中的韵律与情感。标点的停顿、句式的起伏,会被自然呈现;文本中暗藏的情感弧线,从平静叙述到激烈转折,模型能主动捕捉;甚至连字里行间透露出的说话人身份(年龄、气质、角色类型),也会自动落到声音里。换句话说:最朴素的纯文本,交给它,也能还你一段有血有肉的演绎。

Text:

Ten... nine... eight... seven... six... five... four... three... TWO... ONE... ZERO! LAUNCH! LAUNCH! WE HAVE LIFTOFF! GO GO GO! SHE'S CLIMBING! ALTITUDE 1,000... 5,000... 10,000 FEET AND CLIMBING! BEAUTIFUL! AB-SO-LUTE-LY BEAUTIFUL!

Audio:

模型系列

mimo-v2.5-tts

内置多种精品音色,涵盖多种使用场景,每个音色都经过专业调优,发音自然、情感贴合,开箱即享高质量语音合成。 欢迎大家到 Xiaomi MiMo Studio 进行音色试听:

https://aistudio.xiaomimimo.com/#/c

图片

mimo-v2.5-tts-voicedesign

音色设计面向的是"我心里有一个声音,但世界上还没有"的场景:游戏 NPC、动画角色、虚拟主播、品牌 IP、有声剧的非典型嗓音——这些都很难直接从音色库中挑选,也不适合用真人克隆。

该模型支持通过自然语言描述从零生成一款全新音色,无需任何参考音频。用户可以自由使用年龄、性别、口音、音质、发声方式、性格气质等任意描述维度——比如"一位年迈的东欧裔学者,低沉、略带嘶哑,说话节奏缓慢"或"元气满满的少女,声线清脆,语尾带一点上扬"——模型即可合成对应的角色音色。

得益于大规模预训练,模型对复杂、模糊、甚至相互矛盾的描述也能合理解读,而不局限于"男/女/青年/老年"这类粗粒度标签。这让音色设计不仅能生成真人不易提供的独特嗓音,也能精确复现某一类型化的角色声线。

Case1

Instruct :

一位中年男性,说标准普通话,嗓音低沉有磁性,带有轻微的沙哑质感,像纪录片旁白解说员,沉稳而有感染力。

Text:

当最后一缕阳光消失在地平线之下,这片沉睡了亿万年的大地开始显露它真正的面貌。在这寂静的荒野中,每一块岩石都记录着时间的流逝,每一阵风都在诉说着古老的故事。

Audio:

Case2

Instruct :

一位年迈的老先生,说带北方口音的普通话,语速缓慢而沉稳,嗓音略带沙哑和沧桑感,仿佛一位饱经风霜的老爷爷在讲故事,充满岁月的智慧。

Text:

我这辈子啊,走南闯北六十多年。见过最热闹的集市,也见过最安静的戈壁。到头来才明白一个道理——这人哪,不在走了多远的路,在于记住了多少风景。年轻人,别光顾着赶路,偶尔也停下来看看天。

Audio:

mimo-v2.5-tts-voiceclone

音色克隆用于让模型用你指定的声音说话——复刻一位真人播客、配音演员、品牌代言人,或者用户本人。

只需提供一段短至数秒的参考音频,无需任何额外的训练、标注或微调过程,模型就能直接复刻出说话人的音色并立即可用。复刻后的声音不仅保留了原始说话人的音色身份,也保留了气息、节奏、习惯性停顿等个人特征。

克隆得到的音色可复用本系列模型的全部控制能力——自然语言指令、音频标签、导演剧本级脚本都能继续叠加使用。复刻的声音不仅"像原人",也能按你给定的风格与情绪去演。

Prompt:

Instruct:

用尖锐刻薄的嗓音,带着狐假虎威的得意感说话,在提到大人物的身份时故意放慢语速并加重语气,营造压迫感。

Text:

你以为我是谁,也敢在这儿跟我耍横?我告诉你,站在我身后的那个人,说出来吓死你——是当今的——万岁爷!你今天要是不给我个说法,我让你这铺子明天就开不了门。

Audio:

mimo-v2.5-asr:听懂你的每一次表达,无论多复杂

如果说 TTS 是在“输出”端让声音成为创作工具,那么 ASR 就是在“输入”端为这一切打开大门。在真实场景下,语种切换、背景噪声、说话人带着浓重的方言口音,在这样的环境里还能听清、听准,才是真正好用的语音识别。

mimo-v2.5-asr 作为全链路语音模型系列的听觉基座,在中英双语、中文方言、Code-Switch、强噪音、多说话人、高知识密度等复杂真实场景下均达到业界领先水平。它不只是为了把清晰的语音转成文字,更是让 Agent 在嘈杂的真实声音里,抓住每一个值得被理解的字词。

核心特点

中文方言:支持吴语、粤语、闽南语、四川话等方言

英文复杂场景:在 AMI 等复杂英文场景 Open ASR Leaderboard 上达到领先水平

Code-Switch:中英 Code-Switch 语音转录自由流畅,无需预设语种标签

歌曲识别:中英文歌曲歌词识别,在伴奏与人声混合场景下保持高精度

强噪音场景:在高噪音、远场拾音等复杂声学环境中保持鲁棒识别

多说话人:支持多人交叉对话场景的准确转录,如会议场景

强知识关联:古诗词、专业术语、人名、地名等知识密集型内容的精准识别

原生标点:结合语音韵律与语义原生输出标点,转写结果即拿即用,无需后处理

性能表现

mimo-v2.5-asr 在中英文通用、中文方言、Code-Switch 及歌词识别等多个维度上均取得当前最优或极具竞争力的结果,展现出跨场景、跨语种的稳定优势。以下为代表性评测结果:

图片

对于 Agent 应用、内容创作工具、会议系统、语音交互产品而言,这是一个真正在复杂真实世界语音中经过验证的听觉基座。

如何使用

MiMo-V2.5-TTS 系列

为助力开发者探索更多场景,mimo-v2.5-tts、mimo-v2.5-tts-voicedesign、mimo-v2.5-tts-voiceclone 均在 Xiaomi MiMo API 开放平台限时免费: https://platform.xiaomimimo.com/docs/usage-guide/speech-synthesis-v2.5

同时,欢迎大家到 Xiaomi MiMo Studio 进行快速体验: https://aistudio.xiaomimimo.com/#/c

图片

更多case请见 https://mimo.xiaomi.com/mimo-v2-5-tts

mimo-v2.5-asr

mimo-v2.5-asr 目前已开源模型权重和代码,支持开发者和研究者直接使用或二次开发。

Demo page: https://mimo.xiaomi.com/mimo-v2-5-asr

项目开源地址:https://github.com/XiaomiMiMo/MiMo-V2.5-ASR

权重开源地址:https://huggingface.co/XiaomiMiMo/MiMo-V2.5-ASR

Huggingface space: https://huggingface.co/spaces/XiaomiMiMo/MiMo-V2.5-ASR

Agent 工具调用支持

为方便大家将语音能力快速集成至 Agent 应用中,我们已将 mimo-v2.5-tts 相关模型的接入 Skill 全面开源。欢迎前往仓库拉取使用:

https://github.com/XiaomiMiMo/MiMo-Skills

声音,只是起点

在 MiMo-V2.5-TTS 系列 之外,我们更想回答一个问题:

当 mimo-v2.5-tts 懂“表达”、mimo-v2.5-pro 懂“规划”、mimo-v2.5 懂“聆听”,音频创作会变成什么样?

答案是:一条完整、可闭环的 Agent 式创作链路。

  • mimo-v2.5-pro —— 规划与编剧,拆任务、写剧本、排节奏、决定剪辑顺序。

  • MiMo-V2.5-TTS 系列 —— 音色与素材,Voice Design 生成音色、Voice Clone 合成内容。

  • mimo-v2.5 —— 听回与评价,听角色一不一致、节奏对不对、有没有跟用户初衷偏。

一个例子:

做一段 2 分钟左右的夏日午后场景。爷爷(70 多岁,北京胡同味儿,嗓门哑、说话拖长音、下棋专注时压低声、笑起来哈哈一声拍桌)在槐树下对弈。5 岁小孙子蹲旁边看蚂蚁,不时冒出奶气问题打断(清脆、尾音上扬、兴奋时拔高、咬字偶尔不清)。爷爷动真格时语气沉、被孙子打断时立刻松下来笑骂。

用户只给一句话,成品自己出来:

会说是门槛,会听、会想、会协作才是价值。

Next step

  1. 更大规模的语音预训练与强化学习后训练: MiMo-V2.5-TTS-Series 证明了大规模预训练与后训练的巨大收益,扩大这两者的规模:通过更多的数据、更大的模型、更强的算力,让更强大的语音智能从规模中涌现;更加精细的奖励建模与强化学习算法,推动模型迈向更高阶的语音表达智能。

  2. 通用音频生成: 语音只是第一步。我们正在将能力扩展到更广义的音频生成:环境音效、动作声、氛围铺底,乃至短乐句与旋律片段——逐步建模出一个完整的声音世界。我们相信,真正的通用音频模型,不是把语音、音效、音乐简单拼在一起,而是让它们在同一套空间里彼此理解、协同创作。

  3. 上下文理解能力: 语音表达从来不是孤立的句子游戏。人之所以能“读对”,是因为理解上下文——知道前面发生了什么,明白当前这句话在整个叙事中处于什么位置。上下文理解意味着模型不再只是一个“逐句执行的工具”,而是一个懂得故事语境的表达者。这是我们迈向真正通用语音智能的关键一步。

  4. 通用语音理解能力: 我们的目标是,让方言、噪音、中英混杂这些“真实世界的常态”不再成为语音识别的短板。未来,我们将持续扩展更多方言覆盖、并深化上下文感知能力,让语音识别从“转写”走向“理解”。

图片
更新时间 2026 年 05 月 28 日
We use cookies and similar technologies of our own to ensure the proper functioning of the website, customize content according to user preferences and analyze users' interactions on the website, as well as their browsing habits. You can find more information in our Cookie Policy. Select an option or go to Cookie Settings to manage your preferences. Learn More.