代码之家  ›  专栏  ›  技术社区  ›  Unknown

Python中连续数据的方框图

  •  4
  • Unknown  · 技术社区  · 7 年前

    我有一个包含两列的csv文件:

    • 第1列- Timestamp 数据(yyyy-mm-dd-hh:mm:ss.ms(8个月数据))

    • col2:热量数据(连续变量)。

    由于几乎有50k条记录,我想将col1(时间戳col)划分为几个月或几个星期,然后在热数据w.r.t时间戳上应用方框图。 我试过R,花了很长时间。需要Python帮助。我想我需要使用 seaborn.boxplot

    请引导。

    1 回复  |  直到 7 年前
        1
  •  2
  •   wwii    7 年前

    按频率分组,然后绘制组

    第一 Read your csv data into a Pandas DataFrame

    import numpy as np
    import Pandas as pd
    from matplotlib import pyplot as plt
    
    # assumes NO header line in csv
    df = pd.read_csv('\file\path', names=['time','temp'], parse_dates=[0])
    

    我将使用一些虚假数据,每小时30天的样本。

    heat = np.random.random(24*30) * 100
    dates = pd.date_range('1/1/2011', periods=24*30, freq='H')
    df = pd.DataFrame({'time':dates,'temp':heat})
    

    将时间戳设置为数据帧的索引

    df = df.set_index('time')
    

    现在按您想要的时间段分组,本例为7天

    gb = df.groupby(pd.Grouper(freq='7D'))
    

    现在可以分别绘制每个组

    for g, week in gb2:
        #week.plot()
        week.boxplot()
        plt.title(f'Week Of {g.date()}')
        plt.show()
        plt.close()
    

    和我不知道你能做到,但这很酷

    ax = gb.boxplot(subplots=False)
    plt.setp(ax.xaxis.get_ticklabels(),rotation=30)
    plt.show()
    plt.close()
    

    Weekly Temps


    heat = np.random.random(24*300) * 100
    dates = pd.date_range('1/1/2011', periods=24*300, freq='H')
    df = pd.DataFrame({'time':dates,'temp':heat})
    df = df.set_index('time')
    

    要将数据划分为五个时间段,然后获取每个时间段的每周箱线图:

    确定总时间跨度;除以五;创建频率别名;然后groupby

    dt = df.index[-1] - df.index[0]
    dt = dt/5
    alias = f'{dt.total_seconds()}S'
    gb = df.groupby(pd.Grouper(freq=alias))
    

    每个组都是一个数据帧,因此在组上迭代;创造 每周的 每个组中的组,并对其进行箱线图绘制。

    for g,d_frame in gb:
        gb_tmp = d_frame.groupby(pd.Grouper(freq='7D'))
        ax = gb_tmp.boxplot(subplots=False)
        plt.setp(ax.xaxis.get_ticklabels(),rotation=90)
        plt.show()
        plt.close()
    

    也许有更好的方法可以做到这一点,如果是这样,我会发布它,或者有人会免费填写来编辑它。看起来这可能会导致最后一组没有完整的数据集。。。

    如果你知道你的数据是周期性的,你可以用切片来分割它。

    n = len(df) // 5
    for tmp_df in (df[i:i+n] for i in range(0, len(df), n)):
        gb_tmp = tmp_df.groupby(pd.Grouper(freq='7D'))
        ax = gb_tmp.boxplot(subplots=False)
        plt.setp(ax.xaxis.get_ticklabels(),rotation=90)
        plt.show()
        plt.close()
    

    Frequency aliases
    pandas.read_csv()
    pandas.Grouper()