![]() |
1
2
我发现自己主要使用GNU coreutils和flex中的textuils来准备语料库,在简单的脚本中把事情链接在一起,至少当我需要做的准备对于正则表达式和琐碎的过滤等来说足够简单的时候。 仍然可以使事物可重用,这里也适用一般规则。如果你的编程不考虑最佳实践等,只是程序化的编程,那么我毫不奇怪你在开始一个新项目时必须从头开始做所有的事情。 尽管格式要求会有很大的变化,但仍然有许多常见的任务,例如标记剥离、标记转换、选择、制表、一些琐碎的数据收集,例如标记数、句子等。为高可重用性编程这些任务将获得回报,即使最初需要更长的时间。 |
![]() |
2
1
我不知道任何这样的框架——并不意味着它们不存在。我更喜欢使用我自己的代码片段,这只是一组代码片段,随着时间的推移,我已经对它们进行了优化/调整/借用,并且我可以根据问题的不同,在不同的配置中链接在一起。如果您已经了解python,那么我强烈建议您在numpy中处理所有的数据准备——正如您所知道的,ml数据集往往很大——成千上万的行向量中填充了浮点数。numpy在这方面很出色。另外,我可能会建议,为了准备ML的培训数据,在几乎每一项工作中都会出现一些任务,这些任务在不同的问题之间不会有太大的差异。我给你下面这些的片段。 归一化 (缩放意味着将数据居中,以避免过度加权。我相信你知道,你可以从-1到1或0到1。我通常选择后者,以便利用稀疏模式。在python中,使用numpy库:
交叉验证 (这里我将默认参数设置为“5”,所以测试集为5%,训练集为95%——将其放入函数中会使k-fold简单得多)
最后,这是一个非常好的 case study (imho),既清晰又完整,从原始数据收集到输入到ML算法(在本例中为MLP)的整个过程。他们还提供了他们的代码。 |
![]() |
fateme · MATLAB,神经网络 3 年前 |
![]() |
Randoms · R: 检查培训数据中的变量 7 年前 |
![]() |
Jayesh · 如何使用Dlib的多目标探测器? 7 年前 |
![]() |
SriK · 训练数据的分布与测试/预测的分布 7 年前 |
![]() |
Tvde1 · MLP列车组中的Scikit使用列表 7 年前 |
![]() |
singa1994 · 在Tensorflow中从图像列表中提取批次 7 年前 |