代码之家  ›  专栏  ›  技术社区  ›  tkja

如何在文件列表上运行UIMA?

  •  1
  • tkja  · 技术社区  · 11 年前

    我在Java程序中使用org.apache.uima.examples.cpe.SimpleRunCPE,它将CpeDescriptionXML文件作为输入。

    此文件具有InputDirectory的名称ValuePair,它指向UIMA应该处理的文本文件的位置。

    如何在指定的文件列表上运行CPE?

    背景是,我在一个目录中有大量的文本文件,可以在其中运行UIMA来生成CAS文件。 如果在运行了几天后UIMA进程突然停止(由于堆内存不足或计算机必须重新启动而崩溃),我希望只在剩余的未处理文件上运行该进程。

    我该怎么说呢?

    1 回复  |  直到 11 年前
        1
  •  2
  •   Renaud    11 年前

    在CpeDescriptionXML文件中,您需要修改CollectionReader以接受新参数(例如文件列表或正则表达式),以过滤掉已处理的文件。 Here some code tests 让你开始。

    另一种解决方法是将大型InputDirectory结构为较小的子目录,并在每个子目录上运行UIMACPE。这样,如果一个CPE批处理失败,您就可以重新启动它。