代码之家  ›  专栏  ›  技术社区  ›  Levent Ozbek

如何在Julia中将CSV转换为Parquet

  •  0
  • Levent Ozbek  · 技术社区  · 4 年前

    我有一个CSV文件,我想在Julia中将其转换为Parquet。我在论坛和关于此转换的文档中找不到任何相关信息。Julia中是否可以进行这样的转换,还是我只是将CSV读作Parquet?如果是这样?我该怎么做呢?

    这就是我目前所拥有的。

    begin
        using Pkg
        Pkg.add("PlutoUI")
        Pkg.add("HTTP")
        Pkg.add("StatsModels")
        Pkg.activate(".")
        import CSV, DataFrames, Dates, StatsPlots, StatsModels
        import DataFrames.DataFrame
        using Plots, PlutoUI, HTTP, DelimitedFiles, Parquet
    end
    
    begin
        df = CSV.read("/home/onur/julia-assignment/temp.csv", DataFrame)
    end
    
    0 回复  |  直到 4 年前
        1
  •  2
  •   Przemyslaw Szufel    4 年前

    使用 Parquet.jl 如下代码所示:

    using CSV,DataFrames,Parquet
    c = CSV.read(IOBuffer("a;b;c\n1;2.5;a\n2;3.5;b"), DataFrame, delim=";")
    Parquet.write_parquet("dat.parquet", c)
    

    至于测试,让我们试着读一下:

    julia> Parquet.read_parquet("dat.parquet") |> DataFrame
    2×3 DataFrame
     Row │ a       b         c
         │ Int64?  Float64?  String?
    ─────┼───────────────────────────
       1 │      1       2.5  a
       2 │      2       3.5  b