代码之家 › 专栏 › 技术社区 › Madhusoodan P

对分组后的分区数的混淆[重复]

shuffle apache-spark-sql group-by apache-spark

Madhusoodan P · 技术社区 · 7 年前

是否有任何方法可以获取数据帧的当前分区数? 我检查了DataFrame javadoc(spark 1.6),但没有找到方法,或者我只是错过了它? (对于JavaRDD,有一个getNumPartitions()方法。)

0 回复 | 直到 6 年前

120

user4601931 7 年前

你需要打电话 getNumPartitions() 在数据帧的底层RDD上,例如。, df.rdd.getNumPartitions() df.rdd.getNumPartitions .

Ram Ghadiyaram 6 年前

dataframe.rdd.partitions.size 是除了 df.rdd.getNumPartitions() df.rdd.length .

让我用完整的例子来解释这个。。。

val x = (1 to 10).toList
val numberDF = x.toDF(ânumberâ)
numberDF.rdd.partitions.size // => 4

为了证明我们有多少个分区。。。将该数据帧另存为csv

numberDF.write.csv(â/Users/Ram.Ghadiyaram/output/numbersâ)

下面是数据在不同分区上的分隔方式。

Partition 00000: 1, 2
Partition 00001: 3, 4, 5
Partition 00002: 6, 7
Partition 00003: 8, 9, 10

更新:

在上述情况下,分区数为4

取决于你正在执行的案件。自从使用local[4]以来,我得到了4个分区。

长答案:

4个分区。

val spark = SparkSession.builder()
    .appName(this.getClass.getName)
    .config("spark.master", "local[4]").getOrCreate()

例子: spark-shell --master yarn

scala> val x = (1 to 10).toList
x: List[Int] = List(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)


scala> val numberDF = x.toDF("number")
numberDF: org.apache.spark.sql.DataFrame = [number: int]

scala> numberDF.rdd.partitions.size
res0: Int = 2

default parllelism of spark
基于hashpartitioner的spark将决定要分发多少个分区。如果你在跑步 --master local 基于你的 Runtime.getRuntime.availableProcessors() 即 local[Runtime.getRuntime.availableProcessors()] 分区的数目。如果可用的处理器数量是12(即。 local[Runtime.getRuntime.availableProcessors()]) 如果列表是1到10,那么只会创建10个分区。

注:

方法 local[*] s"local[${Runtime.getRuntime.availableProcessors()}]") 但是在这里面箱子里只有10个号码,所以最多只能装10个

记住这些要点,我建议你自己试试

Kartoch 8 年前

DF.rdd.partitions.length

loneStar 8 年前

 val df = Seq(
  ("A", 1), ("B", 2), ("A", 3), ("C", 1)
).toDF("k", "v")

df.rdd.getNumPartitions

推荐文章

maximodesousadias · 如何根据条件删除日期后的记录

1 年前

Joe Bloggr · 如何将Dataframe类型的函数参数传递给SparkSQL查询

1 年前

Shankar Panda · 如何从org.apache.spark.sql获取密钥。在scala中键入列并将其放入列表变量中?

1 年前

Aaron Brazier · 连接2个pyspark数据帧并继续运行窗口sum和max

1 年前

user23358051 · 火花顺序优化规则

1 年前

Tristpost · 如何从我自己的Java Stream将CSV数据最好地加载到Apache Spark数据帧中?

1 年前

David Cunningham · Pyspark结构化流媒体-来自以前记录的数据

1 年前

Surender Raja · 对case语句的pyspark查询引发错误

1 年前

ConfusedDeveloper · 取消查看SPARK SQL中的列组

2 年前

nfsp412 · 当我使用spark-sql时,将出现此错误

2 年前