代码之家 › 专栏 › 技术社区 › mrgloom

Pandas:无周期获取数据子集

machine-learning pandas python

mrgloom · 技术社区 · 7 年前

我正在尝试根据以下内容将列车数据拆分为列车/测试拆分 customer_id (数据框中的几行可以具有相同的 customer\u id )我想知道我们能做什么 build df_test 和 drop from df_train 没有一个循环的部分是以熊猫特有的方式吗?

#Split data for train / test split

df_train = pd.read_csv('data/train.csv')
print('df_train.shape', df_train.shape)

df_train = df_train.replace(np.nan, 'nan', regex=True)

train_customer_id_set = df_train.customer_id.unique()
print('len(train_customer_id_set)', len(train_customer_id_set))

#Split train data to train/test by customer_id
n = 1000
test_customer_id_set = list(train_customer_id_set)
random.shuffle(test_customer_id_set)
test_customer_id_set = test_customer_id_set[:n]

#Q: how to do it without cycle?

#build df_test
df_list = []
for customer_id in test_customer_id_set:
    df = df_train[df_train['customer_id']==customer_id]
    df_list.append(df)
df_test = pd.concat(df_list)

#drop from df_train
for customer_id in test_customer_id_set:
    df_train = df_train.drop(df_train[df_train.customer_id==customer_id].index)

train_customer_id_set = df_train.customer_id.unique()

print('df_train.shape', df_train.shape)
print('df_test.shape', df_test.shape)

1 回复 | 直到 7 年前

Ami Tavory 7 年前

在您计算的点之后 test_customer_id_set ,看起来你所做的相当于:

df_test = df_train[df_train.customer_id.isin(test_customer_id_set)]
df_train = df_train[~df_train.customer_id.isin(test_customer_id_set)]

推荐文章

user29747013 · 如何创建一个新的数据框架,其中包含原始数据框架中列的聚合列?

4 月前

Cam · Pandas列表日期到日期时间

5 月前

jjkennedy · Pandas文本文件导入:当每个文件中存在多个表时,自动选择1个表

5 月前

Sun Jar · 在另一个系列中查找当前df值的索引,并将其添加到列中

5 月前

dietzi96 · Pandas DataFrame.to_sql随机和静默地失败,没有错误消息

5 月前

Bijan · Pandas批量更新帐户字符串

5 月前

Kernel · TypeError:Index.reindex()收到意外的关键字参数fill_value'

6 月前

Kernel · 进入熊猫的定义。系列super().reindex

6 月前

adventurous_chip_55 · 如何引爆柱子

6 月前

RKIDEV · Panda迭代行并将第n行值乘以下一(n+1)行值

6 月前