代码之家 › 专栏 › 技术社区 › user1034642

重音检测API?

google-now speech-recognition tensorflow machine-learning

3

user1034642 · 技术社区 · 9 年前

我一直在研究构建一个移动/网络应用程序的可行性,该应用程序允许用户说出短语并检测用户的口音(波士顿、纽约、加拿大等)。用户可以说大约5到10个预定义短语。我熟悉一些可用的语音到文本API(Nuance、Bing、Google等),但似乎没有一个提供这种附加功能。我找到的最接近的例子是Google Now或微软的说话人识别API:

http://www.androidauthority.com/google-now-accents-515684/

https://www.microsoft.com/cognitive-services/en-us/speaker-recognition-api

因为将有5-10个预定义短语,我正在考虑使用Tensorflow或Wekinator这样的机器学习软件。我将在每个重音中创建初始音频,用作初始数据。在我深入研究这条路径之前,我只想得到一些关于这种方法的反馈,或者是否有更好的方法。如果我需要澄清什么,请告诉我。