代码之家  ›  专栏  ›  技术社区  ›  huseyin

Rapidminer-拆分具有错误类型值的行

  •  -1
  • huseyin  · 技术社区  · 7 年前

    我在一个txt文件中有一个800万行的数据集,格式以制表符分隔,没有引号。 我有14列中的5列,日期值为dd.MM。yyyy格式。

    问题1 我正在尝试导入文件。在“设置列格式”步骤中,如果我将该列的类型选择为“日期”,则会出现错误,列中的所有单元格都会变为“?”

    所以我选择了“多项式”,并计划稍后将属性类型转换为日期。

    问题2(真实问题) 我导入数据并输入“nominal to date”操作符。运行时,第14.899行出现错误:

    Cannot parse date: Unparseable date: "0"
    

    我找到了这一行,发现列之间的分隔错误。前一个单元格中的字符串中有制表符。所以值向右移动了一个单元格。这一排并不是唯一移动的。

    我想为特定属性拆分数据类型错误的行。所以我无法手动更正它们。

    在Rapidminer中我如何做到这一点?

    或者其他什么想法来解决这些问题?

    2 回复  |  直到 7 年前
        1
  •  2
  •   SGenzer    7 年前

    因此,您很可能需要调整此下拉菜单中的日期格式:

    enter image description here

    老实说,我通常只是导入为多项式,然后在我的过程中转换为日期。它更容易复制。

        2
  •  0
  •   Has QUIT--Anony-Mousse    7 年前

    您的输入文件似乎已损坏。

    显然,最好的解决方案是修复生成数据的过程。Espace或替换制表符,并以非歧义格式(如ISO日期格式)设置日期格式。

    假设你不能确定日期,你可能应该写一个 强健的 解析器 程序 你自己像rapidminer这样的通用解析器无法解决所有问题。