音码语音合成系统SCTS（Speech Code To Speech）

索引：610
发布时间：2023-07-03
点击次数：
加入收藏
发表评论
语音阅读

正如当年“地心说”统治人类达1300年之久，TTS（Text to Speech）技术也是目前语音合成的主流技术，但用文字作为媒介真的很合理吗？尽管TTS技术近年来有了快速的发展，甚至接近于自然音，但也遭遇到了“地心说”同样的尴尬，就是当年发表“地心说”的托勒密不得不设计一个非常复杂的多轮结构（本轮、均轮）来自圆其说，但仍有误差。同样为了达到更好的语音合成效果，TTS技术也设计了非常复杂的情感模型、韵律模型等，虽然能接近自然音，但始终达不到自然音的效果。

问题的关键就在于TTS技术一直把文字作为语音合成的核心，大大限制了语音合成技术的发展，比如“我们”这两个汉字，在语音合成时，我们无法从文字上获取声音的信息，如：音高、音长、音强等。还有一些口语化的语音，因为没有对应的汉字，更无法表达。如在评书里，形容重物掉在地上的“duang”的一声，要比汉字里的象声词“咣”、“当”显得更重，却因为没有对应的汉字，从而无法表达这样的语音。更别说我们在口语中的换气声和咂巴嘴的声音等。

基于对主流语音合成TTS技术的思考，5357cc拉斯维加斯采用了不同的技术路线，称为：音码语音合成技术，简称SCTS技术（Speech Code to Speech）。该技术正如“地心说”统治1000年后的“日心说”一样，哥白尼用“日心说”解释太阳和行星的运行就特别简单、有效。用SCTS技术做语音合成，也同样简单、有效。

首先我们在建立某人的语音库时，就会用语音识别系统生成音码而不是文字，可以很好地保留该语音的声音信息：音长、音高、音强、前后音的关系等。在语音合成时，就可以根据音码和语义，调用想要的语音。

SCTS技术一经问世，就展现了它独特的优势：比如，如果让一个失语者通过敲击键盘来发音，采用TTS技术，该操作者必须先输入汉字，然后由汉字转成语音，效率低而且慢，也无法表达更丰富的情感。而采用SCTS技术，操作者直接输入音码，同步发音，效率高而且快，平均每分钟发200个音，达到正常说话的语速，而且可以表达更丰富的情感。

再比如，采用TTS技术合成一段语音，如果对某些发音不满意，想换更好的语音来表达，是无法实现的，最多由机器帮你调个语调、音强、空隙等，这样的结果也不自然。而采用SCTS技术合成一段语音，每个字词都有至少几十个自然音可供替换，基本满足日常需要。
SCTS技术的兼容性和扩容性非常强，只需要不断地增加音码的长度，就可以把更多的语音信息保存，并在语音合成时表现出来，比如哭泣、高兴时的语音，模仿老人和小孩讲话的声音等。

SCTS技术实现的目标：人人都有自己的语音库，人人都是中央播音员，人人都是单田芳

SCTS技术的应用场景非常广泛，主要应用领域有：

一、为失语者提供发音输入法，实现与普通人进行语音交流；

二、建立人工可干预的语音播报或朗读系统，真正实现“我的声音我做主“；

三、采用音码技术驱动数字人，可以达到与真人同样的驱动效果；

四、低成本定制个性化语音库，作为儿童教育、办公机器人、陪伴机器人的语音；

五、辅助配音系统：部分甚至完全替代配音、评书、广播剧的播讲人和配音员；

六、与数字虚拟人合作，实现在元宇宙和游戏中的分身。

这就是创新SCTS语音合成技术，非TTS技术

音码语音合成技术

推广文章

音码语音合成系统SCTS（Speech Code To Speech）