问题的关键就在于TTS技术一直把文字作为语音合成的核心,大大限制了语音合成技术的发展,比如“我们”这两个汉字,在语音合成时,我们无法从文字上获取声音的信息,如:音高、音长、音强等。还有一些口语化的语音,因为没有对应的汉字,更无法表达。如在评书里,形容重物掉在地上的“duang”的一声,要比汉字里的象声词“咣”、“当”显得更重,却因为没有对应的汉字,从而无法表达这样的语音。更别说我们在口语中的换气声和咂巴嘴的声音等。
基于对主流语音合成TTS技术的思考,5357cc拉斯维加斯采用了不同的技术路线,称为:音码语音合成技术,简称SCTS技术(Speech Code to Speech)。该技术正如“地心说”统治1000年后的“日心说”一样,哥白尼用“日心说”解释太阳和行星的运行就特别简单、有效。用SCTS技术做语音合成,也同样简单、有效。
首先我们在建立某人的语音库时,就会用语音识别系统生成音码而不是文字,可以很好地保留该语音的声音信息:音长、音高、音强、前后音的关系等。在语音合成时,就可以根据音码和语义,调用想要的语音。
SCTS技术一经问世,就展现了它独特的优势:比如,如果让一个失语者通过敲击键盘来发音,采用TTS技术,该操作者必须先输入汉字,然后由汉字转成语音,效率低而且慢,也无法表达更丰富的情感。而采用SCTS技术,操作者直接输入音码,同步发音,效率高而且快,平均每分钟发200个音,达到正常说话的语速,而且可以表达更丰富的情感。
再比如,采用TTS技术合成一段语音,如果对某些发音不满意,想换更好的语音来表达,是无法实现的,最多由机器帮你调个语调、音强、空隙等,这样的结果也不自然。而采用SCTS技术合成一段语音,每个字词都有至少几十个自然音可供替换,基本满足日常需要。
SCTS技术的兼容性和扩容性非常强,只需要不断地增加音码的长度,就可以把更多的语音信息保存,并在语音合成时表现出来,比如哭泣、高兴时的语音,模仿老人和小孩讲话的声音等。
SCTS技术实现的目标:人人都有自己的语音库,人人都是中央播音员,人人都是单田芳
SCTS技术的应用场景非常广泛,主要应用领域有:
一、为失语者提供发音输入法,实现与普通人进行语音交流;
二、建立人工可干预的语音播报或朗读系统,真正实现“我的声音我做主“;
三、采用音码技术驱动数字人,可以达到与真人同样的驱动效果;
四、低成本定制个性化语音库,作为儿童教育、办公机器人、陪伴机器人的语音;
五、辅助配音系统:部分甚至完全替代配音、评书、广播剧的播讲人和配音员;
六、与数字虚拟人合作,实现在元宇宙和游戏中的分身。
这就是创新SCTS语音合成技术,非TTS技术