代码之家  ›  专栏  ›  技术社区  ›  Brian

火花结构流写入错误

  •  0
  • Brian  · 技术社区  · 7 年前

    我在消费和接收卡夫卡的信息时遇到了一些奇怪的错误。我运行的是2.3.0,我知道这在其他版本之前是有效的。

    val event = spark.readStream.format("kafka")
    .option("kafka.bootstrap.servers", <server list>)
    .option("subscribe", <topic>)
    .load()
    
    val filesink_query = outputdf.writeStream
    .partitionBy(<some column>)
    .format("parquet")
    .option("path", <some path in EMRFS>)
    .option("checkpointLocation", "/tmp/ingestcheckpoint")
    .trigger(Trigger.ProcessingTime(10.seconds))
    .outputMode(OutputMode.Append)
    .start 
    
    
    
    java.lang.IllegalStateException: /tmp/outputagent/_spark_metadata/0 doesn't exist when compacting batch 9 (compactInterval: 10)
    

    我很困惑,这是最新版本的Spark的错误吗?

    1 回复  |  直到 7 年前
        1
  •  0
  •   Brian    7 年前

    这个问题似乎与在s3A上使用s3n以及在hdfs上只有检查点而不是s3有关。这是非常恼人的罪恶,我想避免在我的代码中硬编码DNS或IPS。

    推荐文章