|
|
1
5
对于这种罕见的任务,没有公共API。 作为语言检测的重音检测通常使用i向量实现。教程是 here available in Kaldi . 即使你的句子是固定的,你也需要大量的数据来训练系统。收集口音语音可能更容易,而不需要关注你的特定句子。 端到端的tensorflow实现也是可能的,但可能需要太多的数据,因为您需要将说话者本质属性与重音本质属性分开(基本上像i-vector那样执行因子分解)。您可以找到类似作品的描述,如 this 和 this one . |
|
2
3
你可以使用(这只是一个想法,你需要大量实验)一个神经网络,尽可能多的输出,你有一个softmax输出层和交叉熵成本函数 |