代码之家 › 专栏 › 技术社区 › Karl

基于切片的数据帧更新

dataframe pandas python

Karl · 技术社区 · 7 年前

sklearn.model_selection.train_test_split

我目前的做法如下:

import pandas as pd
import numpy as np
from sklearn import model_selection

dates = pd.date_range('20130101',periods=10)
df = pd.DataFrame(np.random.randn(10,4),index=dates,columns=list('ABCD')).reset_index()

split = [0.8, 0.2]
split_seed = 123

train_df, test_df = model_selection.train_test_split(df, train_size = split[0], test_size = split[1], random_state=split_seed)

train_df["Dataset"] = "train"
test_df["Dataset"] = "test"

final_df = train_df.append(test_df)

df 对象:

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

这其实并不重要,因为在这之后就不再使用原始的数据帧了。但我很好奇我怎么能做得不一样。我想不是编辑 train_df 和 test_df 再加上它们,我就可以编辑了直接,但作为我不太熟悉如何 .loc 和 .iloc

说明我要查找的内容的Psuedo代码如下:

df["Dataset"] = "train" WHERE index in train_df.index.values
df["Dataset"] = "test" WHERE index in test_df.index.values

2 回复 | 直到 7 年前

user3471881 7 年前

如果你不想 copy DataFrame model_selection.train_test_split() loc :

df.loc[train_df.index, 'Dataset'] = 'train'
df.loc[test_df.index, 'Dataset'] = 'test'

jpp 7 年前

一种方法是使用 np.where 要在布尔条件上添加条件序列,请执行以下操作:

df['Dataset'] = np.where(df.index.isin(train_df.index.values), 'train', 'test')

当然,这是假设索引不包含在 train_df 必须 test_df

或使用 np.select 要获得适应性更强的解决方案:

conds = [df.index.isin(train_df.index.values),
         df.index.isin(test.index.values)]

df['Dataset'] = np.select(conds, ['train', 'test'], 'other')

推荐文章

Google User · Django管理员在`list_display中未显示`creation_date`字段`

1 年前

user29747013 · 如何创建一个新的数据框架,其中包含原始数据框架中列的聚合列?

1 年前

ÎÎÎ½Î· ÎÎ®Î¹Î½Î¿Ï · Python lxml.html语法错误:使用lxml find时XPATH的谓词无效

1 年前

user29715306 · from_users=和chats=电视节目中的差异

1 年前

Redshoe · 当执行numpy.genfromtxt()时,python是否会读取文件的所有行?

1 年前

RASEL MAHMUD · 为什么以及如何在is_even()函数内的IF条件中递归X变量在满足0后递增?[副本]

1 年前

prayner · 更新嵌套字典包含列表中的项

1 年前

Bringo Jr · 我可以在O(n)中解决这个问题吗?

1 年前

Dave · 如何在for循环中修改列表值

1 年前

Shukurullox Komiljonov · 从记录中获得相互和解。使用SQL

1 年前