代码之家  ›  专栏  ›  技术社区  ›  Jaison

是否可以使用Apache beam处理非结构化数据(多行web日志)?

  •  0
  • Jaison  · 技术社区  · 7 年前

    我有java正则表达式代码,可以读取非结构化web日志文件的多行,并生成json数据。

    日志文件如下所示,

    [2018-03-06 09:00:44,111] line1
    [2018-03-06 09:00:46,236] line2
    [2018-03-06 09:01:07,503] line3
    [2018-03-06 09:01:20,097] line4
    

    现在,我正在尝试在数据流管道中执行此转换。然而,我没有找到一种方法来同时读取/处理多行代码。有人能帮助我使用数据流处理多行web日志文件吗?

    1 回复  |  直到 7 年前
        1
  •  0
  •   Jaison    7 年前

    Dataflow/Apache beam一次读取一行数据,无法同时处理多行数据。因此,我编写了一个过程,将多行文件转换为带分隔符的单行文件,然后作为输入传递给数据流管道。