我有java正则表达式代码,可以读取非结构化web日志文件的多行,并生成json数据。
日志文件如下所示,
[2018-03-06 09:00:44,111] line1 [2018-03-06 09:00:46,236] line2 [2018-03-06 09:01:07,503] line3 [2018-03-06 09:01:20,097] line4
现在,我正在尝试在数据流管道中执行此转换。然而,我没有找到一种方法来同时读取/处理多行代码。有人能帮助我使用数据流处理多行web日志文件吗?
Dataflow/Apache beam一次读取一行数据,无法同时处理多行数据。因此,我编写了一个过程,将多行文件转换为带分隔符的单行文件,然后作为输入传递给数据流管道。