代码之家  ›  专栏  ›  技术社区  ›  user1034642

重音检测API?

  •  3
  • user1034642  · 技术社区  · 9 年前

    我一直在研究构建一个移动/网络应用程序的可行性,该应用程序允许用户说出短语并检测用户的口音(波士顿、纽约、加拿大等)。用户可以说大约5到10个预定义短语。我熟悉一些可用的语音到文本API(Nuance、Bing、Google等),但似乎没有一个提供这种附加功能。我找到的最接近的例子是Google Now或微软的说话人识别API:

    http://www.androidauthority.com/google-now-accents-515684/

    https://www.microsoft.com/cognitive-services/en-us/speaker-recognition-api

    因为将有5-10个预定义短语,我正在考虑使用Tensorflow或Wekinator这样的机器学习软件。我将在每个重音中创建初始音频,用作初始数据。在我深入研究这条路径之前,我只想得到一些关于这种方法的反馈,或者是否有更好的方法。如果我需要澄清什么,请告诉我。

    2 回复  |  直到 9 年前
        1
  •  5
  •   Nikolay Shmyrev    9 年前

    对于这种罕见的任务,没有公共API。

    作为语言检测的重音检测通常使用i向量实现。教程是 here available in Kaldi .

    即使你的句子是固定的,你也需要大量的数据来训练系统。收集口音语音可能更容易,而不需要关注你的特定句子。

    端到端的tensorflow实现也是可能的,但可能需要太多的数据,因为您需要将说话者本质属性与重音本质属性分开(基本上像i-vector那样执行因子分解)。您可以找到类似作品的描述,如 this this one .

        2
  •  3
  •   Luis Leal    9 年前

    你可以使用(这只是一个想法,你需要大量实验)一个神经网络,尽可能多的输出,你有一个softmax输出层和交叉熵成本函数

    推荐文章