代码之家  ›  专栏  ›  技术社区  ›  ShanZhengYang

如何将字典展开到大字典的熊猫数据框架中?

  •  2
  • ShanZhengYang  · 技术社区  · 6 年前

    请看下面的python3.x词典

    dict1 = {4: {4:25, 5:39, 3:42}, 5:{24:94, 252:49, 25:4, 55:923}}
    

    我想把这个展开到熊猫数据框架中。似乎有两个选项:

    df1 = pd.DataFrame.from_dict(dict1, orient='columns')
    
    print(df1)
            4      5
    3    42.0    NaN
    4    25.0    NaN
    5    39.0    NaN
    24    NaN   94.0
    25    NaN    4.0
    55    NaN  923.0
    252   NaN   49.0
    

    其中的列是字典的主关键字 4 和“5”,行索引是子分区键,值是子分区值。

    另一个选择是

    df2 = pd.DataFrame.from_dict(dict1, orient='index')
    print(df2)
        4     5     3     24    252  25     55 
    4  25.0  39.0  42.0   NaN   NaN  NaN    NaN
    5   NaN   NaN   NaN  94.0  49.0  4.0  923.0
    

    其中,列是内部“子字典”的键,行索引是主字典的键,值是子字典键。

    有没有一种标准的方法可以让我们如下展开python字典?

    key inner_key values
    4        3      42 
    4        4      25
    4        5      39
    5        24     94
    5        25     4
    5        55     923
    5        252    49
    

    使用后最好不要操作数据帧 from_dict() 对于更大的python字典来说,这可能会变得非常占用内存。

    2 回复  |  直到 6 年前
        1
  •  2
  •   jpp    6 年前

    列表理解

    列表理解应该相当有效:

    dict1 = {4: {4:25, 5:39, 3:42}, 5: {24:94, 252:49, 25:4, 55:923}}
    
    cols = ['key', 'inner_key', 'values']
    
    df = pd.DataFrame([[k1, k2, v2] for k1, v1 in dict1.items() for k2, v2 in v1.items()],
                      columns=cols).sort_values(cols)
    
    print(df)
    
       key  inner_key  values
    2    4          3      42
    0    4          4      25
    1    4          5      39
    3    5         24      94
    5    5         25       4
    6    5         55     923
    4    5        252      49
    

    pd.melt + dropna

    如果你不介意的话 df1 ,您可以通过 钯熔体 然后删除空的行 value .

    df1 = df1.reset_index()
    
    res = pd.melt(df1, id_vars='index', value_vars=[4, 5])\
            .dropna(subset=['value']).astype(int)
    
    print(res)
    
        index  variable  value
    0       3         4     42
    1       4         4     25
    2       5         4     39
    10     24         5     94
    11     25         5      4
    12     55         5    923
    13    252         5     49
    
        2
  •  1
  •   min2bro    6 年前
    pd.DataFrame([[i,j,user_dict[i][j] ] for i in user_dict.keys() for j in user_dict[i].keys()],columns=['key', 'inner_key', 'values'])
    

    输出:

       key  inner_key   values
    0   4   4           25
    1   4   5           39
    2   4   3           42
    3   5   24          94
    4   5   252         49
    5   5   25          4
    6   5   55         923