代码之家 › 专栏 › 技术社区 › GihanDB

卡夫卡流到火花流

stream-processing spark-submit spark-streaming pyspark apache-spark

0

GihanDB · 技术社区 · 6 年前

我们有卡夫卡流使用Avro。我需要把它连接到Spark Stream。我用下面的代码作为 Lev G 建议。

kvs = KafkaUtils.createDirectStream(ssc, [topic], {"metadata.broker.list": brokers}, valueDecoder=MessageSerializer.decode_message)

我通过spark submit执行时出现了以下错误。

2018-10-09 10:49:27警告YarnSchedulerBackend$YarnSchedulerndpoint:66 - 正在请求驱动程序删除执行器12,原因是主机上标记为失败的容器:Container\u 1537396420651\u 0008\u 01\u 000013:server\u name。退出状态:1.诊断:[2018-10-09 10:49:25.810]容器启动异常。退出代码:1

[2018-10-09 10:49:25.811]容器退出,退出代码为非零。错误文件:prelaunch.err。

Java HotSpot(TM)64位服务器VM警告:信息:操作系统::提交内存(0x00000000d5580000,702545920,0)失败;error='Cannot allocate memory'(错误号=12)

[2018-10-09 10:49:25.822]

[2018-10-09 10:49:25.822]容器退出,退出代码为非零1。错误文件:prelaunch.err。

stderr的最后4096字节:

我用吼叫命令。

spark-submit --master yarn --py-files ${BIG_DATA_LIBS}v3io-py.zip --packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.2.0 --jars ${BIG_DATA_LIBS}v3io-hcfs_2.11.jar,${BIG_DATA_LIBS}v3io-spark2-object-dataframe_2.11.jar,${BIG_DATA_LIBS}v3io-spark2-streaming_2.11.jar ${APP_PATH}/${SCRIPT_PATH}/kafka_to_spark_stream.py

所有变量都正确导出。这是什么错误?

1 回复 | 直到 6 年前

1

2

LevG 6 年前

可能是因为您没有在驱动程序/执行程序上分配足够的内存来处理流吗?