亚博体育(中国)官方网站豆包语音模子无需特等标签-亚博「中国」yabo官方网站-登录入口

底下的两个有声书演播片断亚博体育(中国)官方网站，你能分辨是真东说念主如故 AI 合成的吗？

现实上这两个演义片断王人是 AI 合成的，有预备来自于豆包语音模子团队。为了贴近一流真东说念主主播的演播效用，豆包语音模子基于原有 Seed-TTS 框架进一步加入凹凸文厚实，最终罢了了高阐扬力、高当然度、高语义厚实的演义演播效用。

豆包语音模子无需特等标签，端到端合成声息

市面上好多的语音模子仍是能保证弥散当然的合成阐扬，但在音质、韵律、情感，以及多扮装演绎上还有探索空间。相等是在演义演播场景下，思要忘形一流主播精细的演播效用，要作念好旁白和扮装的区别演绎、扮装情感的精确抒发、不同扮装的区别度等。

传统的演义 TTS 生成形式，需要提前给对话旁白、情感、扮装打标签，而豆包语音模子则不错作念到端到端合成，无需特等标签标注。

△传统语音模子和豆包语音模子合成链路的区别矫正 Seed-TTS 时代，合谚语音效用忘形真东说念主

原始Seed-TTS（时代论说：https://arxiv.org/pdf/2406.02430）是一种自回来文本到语音模子，主要分为 4 个主要模块：Speech Tokenizer、Autoregressive Transformer、Diffusion Model、Acoustic Vocoder。

其中 Speech Tokenizer 领略了参考音频信息，决定了合成音频的音色和全局立场；Autoregressive Transformer 给与传入的认识文本和 Speech Tokenizer 的输出，进而生成出包含语义信息的 Semantic Token；Diffusion Model 会基于 Semantic Token 建模出包含语讯息息的 Acoustic Token；Acoustic Vocoder 认真将 Acoustic Token 重建规复出最终的音频。

△原始 Seed-TTS 架构

为进一步擢升演义演播下的语音阐扬力和长文本的厚实，豆包时代团队对 Seed-TTS 进行了矫正。

在数据上，演义音频作念章节级别处置，保证了长文下的语音一致性和连贯性。

在特征上，交融 TTS 前端索求的音素、曲调、韵律信息和原始文本，擢升发音和韵律的同期，保留演义语义。

在结构上，将 speech tokenizer 改为speaker embedding，排除 reference audio 关于语音立场的收尾，因而归拢个发音东说念主能在不同扮装上作出更贴合东说念主设的演绎。

终末在认识合成文本以外，特等加入了凹凸文的信息，从而使得模子大概感知更大领域的语义信息，旁白和扮装音阐扬更精确到位。

流程专科评测，优化后的豆包语音模子在演义演播场景，CMOS（Comparative Mean Opinion Score，与真东说念主打对比分的一种主不雅评分形式）已达一流主播的 90%+ 效用。

△优化后的豆包语音模子结构时代落地番茄演义，惠及听书用户

豆包语音大模子团队以王明军、李满超两位演播圈大咖的声息为基础，采纳新时代合成的千部有声书，已上线番茄演义，题材遮掩了历史、悬疑、灵异、王人市、脑洞、科幻等热点书目类型。

据了解，往日豆包语音模子会连续探索前沿科技与业务场景的相接，追求更极致的"听"体验。

豆包语音模子合成的演义音色效用

王明军演播试听：

李满超演播试听：亚博体育(中国)官方网站