代码之家  ›  专栏  ›  技术社区  ›  ecjb

Julia-descripe()函数显示不完整的摘要统计信息

  •  1
  • ecjb  · 技术社区  · 7 年前

    我正在和Julia一起做基础数据分析

    我在跟踪 this tutorial 使用可以找到的列车数据集 here (被命名为 train_u6lujuX_CVtuZ9i.csv )使用以下代码:

    using DataFrames, RDatasets, CSV, StatsBase
    train = CSV.read("/Path/to/train_u6lujuX_CVtuZ9i.csv");
    describe(train[:LoanAmount])
    

    并获得以下输出:

    Summary Stats:
    Length:         614
    Type:           Union{Missing, Int64}
    Number Unique:  204
    

    而不是教程的输出:

    Summary Stats:
    Mean:           146.412162
    Minimum:        9.000000
    1st Quartile:   100.000000
    Median:         128.000000
    3rd Quartile:   168.000000
    Maximum:        700.000000
    Length:         592
    Type:           Int64
    % Missing:      3.583062
    

    这也对应于 StatsBase.jl describe() 函数应该给出

    1 回复  |  直到 7 年前
        1
  •  5
  •   Bogumił Kamiński    5 年前

    这就是目前(在当前版本中)在StatsBase.jl中实现的方式。简言之 train.LoanAmount 没有 eltype 这就是 Real 然后,StatsBase.jl使用一种回退方法,该方法只打印唯一值的长度、类型和数量。你可以写 describe(collect(skipmissing(train.LoanAmount))) 获取汇总统计数据(当然,除了丢失的数量)。

    describe(train, :all, cols=:LoanAmount)
    

    您将得到一个额外返回的输出 DataFrame 这样,您不仅可以查看统计数据,还可以访问它们。

    选项 :all 将打印所有统计数据,请参阅 describe DataFrames.jl中的docstring以查看可用选项。

    您可以在DataFrames.jl的当前版本中找到一些使用此功能的示例 here .

    推荐文章