代码之家  ›  专栏  ›  技术社区  ›  Gerhard Brueckl

将PySpark数据帧作为批处理写入SQL DB

  •  2
  • Gerhard Brueckl  · 技术社区  · 6 年前

    有没有办法强迫PySpark使用大容量插入呢?

    df.write.jdbc(url=jdbcUrl, table=targetTable, mode="append", properties=connectionProperties)

    在SQL端执行的代码如下所示:

    (@P0 int,@P1 bit,@P2 bit,@P3 float,@P4 float,@P5 nvarchar(4000),@P6 int,@P7 int,@P8 int)INSERT INTO dbo.MyTable("Index","Sampling10pct","Sampling1pct","Latitude","Longitude","SessionID","Year","Month","Day") VALUES (@P0,@P1,@P2,@P3,@P4,@P5,@P6,@P7,@P8)

    1 回复  |  直到 6 年前
        1
  •  1
  •   Gerhard Brueckl    6 年前

    user8371915 有一个来自Microsoft的SQL连接器提供了批量插入数据的功能: github.com/Azure/azure-sqldb-spark