代码之家 › 专栏 › 技术社区 › eyeOfTheStorm

Spark数据帧的最后一行(使用Sparkyr和dplyr)

sparklyr sparkr dplyr apache-spark r

eyeOfTheStorm · 技术社区 · 8 年前

想要打印下面数据帧的最后50行,使用类似 tail function 以下按行范围使用Sparkyr,无 arrange 或 collect --我的一些框架很大,没有连续的列。

library(sparklyr)
library(dplyr)
library(Lahman)

spark_install(version = "2.0.0")
sc <- spark_connect(master = "local")

batting_tbl <- copy_to(sc, Lahman::Batting, "batting"); batting_tbl
batting_tbl %>% count # Number of rows 
    #   n
    #  <dbl>
    #   1 101332

batting_tbl %>% tail(., n = 50)
# Error: tail() is not supported by sql sources

1 回复 | 直到 8 年前

eyeOfTheStorm 8 年前

这里有一个解决方案(返回未排序的尾部):

tbl_df(batting_tbl) %>% slice(101282:101332) # Prints the last 50 rows

下面是第二种解决方案(过滤器索引):

tbl_df(batting_tbl) %>% arrange(-as.numeric(rownames(.))) %>% head(., n = 50)

**注:以上两项要求 tbl_df 鉴于 batting_tbl %>% head(., n = 50) 不需要收集R数据。并且往往花费更少的时间来计算。感谢@user6910411指出 monotonically_increasing_id() 或者类似的东西将返回火花数据帧而不是R数据。返回的帧 collect() .

sdf_with_unique_id(batting_tbl, id = "id") %>% arrange(-id) # Id column for sorting

推荐文章

monotonic · 如何将格式为“col1+col3+col4”的数据帧的行名转换为一列数字向量“c(1,3,4)”?

2 年前

buzz · 在dplyr包中,可以根据不同列中的值对列进行变异吗

2 年前

Artur Vidaurre de Almeida · 用R列中的下一个值替换NA值

2 年前

Rich · 如何通过比较R中的两列来计算不同的值?

2 年前

J.Sabree · case\u when在使用group by时忽略一些参数

2 年前

cigarettes_after_text · 有没有一种方法可以更高效地将其写入单个Dplyr语句?

2 年前

Melderon · 将dplyr转换命令转换为基R函数

2 年前

Rafael Peixoto · 熊猫有什么类似于dplyr的“列表列”的吗

2 年前

awoj · 使用pivot\u wider()时修改列名顺序

2 年前

John Thomas · 使用tidyverse/dplyr[duplicate]创建虚拟变量作为计数

2 年前