代码之家 › 专栏 › 技术社区 › nak5120

读取包含最近21天的文件名

databricks wildcard pyspark python

nak5120 · 技术社区 · 5 年前

我在Microsoft Azure存储资源管理器中有一个拼花场文件名。

文件名如下:

dataset_2019_11_19-19.parquet
dataset_2020_01_19-20.parquet
dataset_2020_01_20-20.parquet
dataset_2020_01_21-20.parquet
dataset_2020_01_22-20.parquet

如果我想阅读2020年的所有数据,我会这样做,我使用通配符来获得2020年后的任何数据:

datapath_v3_indata_imptp = "wasbs://mydata@mine.blob.core.windows.net/first_folder/dataset_2020*"
df_indata_v3_imptp=spark.read.format("parquet").option("header", "true").load(datapath_v3_indata_imptp)

我怎样才能得到最近21天的数据?

0 回复 | 直到 5 年前

notNull 5 年前

使用从文件名中提取日期 input_file_name() 那么功能呢 split + regexp_extract (为了得到唯一的日期)最后 to_date yyyy-MM-dd .

过滤使用 date_sub(current_date(),21) 函数获取21天前的日期。

Example:

from pyspark.sql.functions import *
#reading directory 
spark.read.parquet("wasbs://mydata@mine.blob.core.windows.net/first_folder/").\
withColumn("date",\
    to_date(\
        regexp_extract(\
            split(input_file_name(),"-")[0]\
            ,"_(.*)",1),\
        "yyyy_MM_dd")).\
filter(col("date") > date_sub(current_date(),21)).\
show(10,False)

推荐文章

Google User · Django管理员在`list_display中未显示`creation_date`字段`

8 月前

user29747013 · 如何创建一个新的数据框架,其中包含原始数据框架中列的聚合列?

8 月前

ÎÎÎ½Î· ÎÎ®Î¹Î½Î¿Ï · Python lxml.html语法错误:使用lxml find时XPATH的谓词无效

8 月前

user29715306 · from_users=和chats=电视节目中的差异

8 月前

Redshoe · 当执行numpy.genfromtxt()时,python是否会读取文件的所有行?

8 月前

RASEL MAHMUD · 为什么以及如何在is_even()函数内的IF条件中递归X变量在满足0后递增?[副本]

8 月前

prayner · 更新嵌套字典包含列表中的项

8 月前

Bringo Jr · 我可以在O(n)中解决这个问题吗?

9 月前

Dave · 如何在for循环中修改列表值

9 月前

Shukurullox Komiljonov · 从记录中获得相互和解。使用SQL

9 月前