代码之家  ›  专栏  ›  技术社区  ›  user6841064

文本到语音音节音频段连接规则

  •  0
  • user6841064  · 技术社区  · 7 年前

    我正在寻找一些关于在不使用任何现有TTS工具、库等的情况下从零开始创建文本到语音程序的研究,主要是关于创建和组合音频段的规则。

    我想把它用于少数罕见的古代语言,语言本身的情况非常简单。首先,它不是一个大范围的动词基础,大约1000个单词,其次它是在书写时发音的,所以发音绝对等于单词中的每个字母,例如单词:

    parjashif 
    

    这意味着“父亲”和“父亲之子”的音节是:

    par  
    ja
    shif   
    

    par
    ja
    
    1.shif
    2.kif
    3.hof
    4.hefi
    

    就这样,正如你所看到的,只有4种变体

    所以,唯一必须考虑的是,现有音节之间的连接间隔,以使发音听起来不离散。

    1 回复  |  直到 7 年前
        1
  •  0
  •   Nikolay Shmyrev    7 年前

    您可以选择将原始数据库拆分为双元音,并尝试连接双元音而不是音节。它将更加平滑。

    Building Synthetic Voices