代码之家 › 专栏 › 技术社区 › Henrique Goulart

Spark数据集附加唯一ID

apache-spark-dataset spark-dataframe apache-spark-sql apache-spark

Henrique Goulart · 技术社区 · 7 年前

我在看是否有“已经实施的替代方案” append spark数据集上的唯一ID。

我的方案: 我有一个每天处理一批信息的增量作业。在此作业中,我创建了一个维度表 something 并使用为每行分配唯一ID monotonically_increasing_id() . 第二天,我想在上面附加一些行 某物 表,并希望为这些行生成唯一ID。

例子:

第1天:

something_table    
uniqueID   name
100001     A
100002     B

第2天:

something_table
uniqueId   name
100001     A
100002     B
100003     C -- new data that must be created on day 2

第1天的Sniped代码:

case class BasicSomething(name: String)
case class SomethingTable(id: Long, name: String)

val ds: Dataset[BasicSomething] = spark.createDataset(Seq(BasicSomething("A"), BasicSomething("B")))

ds.withColumn("uniqueId", monotonically_increasing_id())
.as[SomethingTable]
.write.csv("something")

我不知道如何保持状态 单调\u递增\u id() 在某种程度上,第二天它将从 something_table 唯一id。

1 回复 | 直到 7 年前

Ramesh Maharjan 7 年前

你总是可以得到 最后唯一ID 的 数据集 您已创建的。因此,您可以 将该唯一id与monoticy\u increasing\u id()一起使用,并创建新的唯一id .

ds.withColumn("uniqueId", monotonically_increasing_id()+last uniqueId of previous dataframe)

推荐文章

user3579222 · 阅读以前的Spark API

6 月前

JFlo · 在PySpark笔记本中读取多个Parquet文件

6 月前

Matthew Thomas · partition覆盖动态和“逻辑”分区

11 月前

Jamal Khan · 如何在Apache Spark中读取500 GB的大文件CSV文件并对其执行聚合?

11 月前

Nakeuh · 从数组列中新建数据帧列

12 月前

maximodesousadias · 如何根据条件删除日期后的记录

1 年前

Ajay S Pal · 当调用函数时传递参数时,PySpark没有在函数内部创建Dataframe

1 年前

SUBHOJEET · 如何使用pyspark读取rds文件?

1 年前

Shankar Panda · 如何从org.apache.spark.sql获取密钥。在scala中键入列并将其放入列表变量中?

1 年前

Aaron Brazier · 连接2个pyspark数据帧并继续运行窗口sum和max

1 年前