代码之家 › 专栏 › 技术社区 › Gerhard Brueckl

将PySpark数据帧作为批处理写入SQL DB

databricks pyspark-sql apache-spark-sql pyspark apache-spark

Gerhard Brueckl · 技术社区 · 6 年前

有没有办法强迫PySpark使用大容量插入呢?

df.write.jdbc(url=jdbcUrl, table=targetTable, mode="append", properties=connectionProperties)

在SQL端执行的代码如下所示:

(@P0 int,@P1 bit,@P2 bit,@P3 float,@P4 float,@P5 nvarchar(4000),@P6 int,@P7 int,@P8 int)INSERT INTO dbo.MyTable("Index","Sampling10pct","Sampling1pct","Latitude","Longitude","SessionID","Year","Month","Day") VALUES (@P0,@P1,@P2,@P3,@P4,@P5,@P6,@P7,@P8)

1 回复 | 直到 6 年前

Gerhard Brueckl 6 年前

由 user8371915 有一个来自Microsoft的SQL连接器提供了批量插入数据的功能: github.com/Azure/azure-sqldb-spark

推荐文章

Anneso · 获取系列第一次/最后一次出现的日期

7 年前

Jared · 如何将时间戳类型的PySpark数据帧截断到当天?

7 年前

Ashley O · 从当前时间算起N天内的发生次数-pyspark

7 年前

Nevermore · 检查两个pyspark行是否相等

7 年前

Ahmad Senousi · 将时间划分为每30分钟一个周期

7 年前

desaiankitb · 如何使用jdbc执行连接查询,而不是使用pyspark获取多个表

7 年前

silviacamplani · 如何删除加入同一pyspark数据帧的“重复”行?

7 年前

Jack · 如何在pyspark dataframe中将字符串以外的任何数据类型转换为字符串

7 年前

abhjt · 读取ASCII字符pyspark上的csv和连接行

7 年前

RobinL · Pyspark:使用带参数的UDF创建新列[重复]

7 年前