我对MFCC了解不多,但如果您试图对音频文件进行分类,那么下面的每一行
@data
必须表示一个音频文件。如果您对下的每一行使用时间窗口或仅一个MFCC
@数据
然后Weka分类器将尝试对时间窗口或MFCC进行分类,这不是您想要的。以防您不熟悉格式(只是链接,因为我看到您将音频文件的功能与
@数据
example
其中每条线代表一种鸢尾属植物:
% 1. Title: Iris Plants Database
%
% 2. Sources:
% (a) Creator: R.A. Fisher
% (b) Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
% (c) Date: July, 1988
%
@RELATION iris
@ATTRIBUTE sepallength NUMERIC
@ATTRIBUTE sepalwidth NUMERIC
@ATTRIBUTE petallength NUMERIC
@ATTRIBUTE petalwidth NUMERIC
@ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica}
@DATA
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa
4.6,3.4,1.4,0.3,Iris-setosa
5.0,3.4,1.5,0.2,Iris-setosa
4.4,2.9,1.4,0.2,Iris-setosa
4.9,3.1,1.5,0.1,Iris-setosa
在回答您关于音频文件应该使用哪些属性的问题时,听起来(没有双关语)就像使用MFCC系数一样可行(假设每个音频文件都有相同数量的MFCC,因为每个片段数据/音频文件都必须有相同数量的属性)。我会尝试一下,看看效果如何。
-
剪切长于最短音频的音频文件。基本上,你会在音频文件的末尾丢弃数据。
-
-
如果MFCC值始终在某个范围内(例如-10到10或类似的值),则可以使用
"bag of words"
模型属性将表示MFCC系数在音频文件的特定范围内的次数。因此,第一个属性可能表示MFCC系数的数量,介于-10和-9.95之间,第二个属性为-9.95到-9.90。因此,如果您有一个包含两个MFCC的非常短的音频文件(不太可能,只是为了举例),其中一个系数为10,另一个系数为-9.93,那么您的最后一个属性的值为1,您的第二个属性的值为1,但所有其他属性的值均为0。该方法的缺点是未考虑MFCC系数的顺序。然而,即使忽略了词序,这种方法也适用于文本分类,所以谁知道呢,也许它适用于音频。
-
除此之外,我会看看你的合并问题是否有好的答案。