代码之家 › 专栏 › 技术社区 › tgcloud

比较从两个excel文件创建的两个Dataframe,在此基础上创建/更新新列

pandas excel python

tgcloud · 技术社区 · 7 年前

Name 和 Org )是可用的。文件B包含 姓名 组织 记录稍旧的列和许多我们不感兴趣的其他列。

   Name      Org
0   abc    ddc systems
1   sdc    ddc systems
2   csc    ddd systems
3   rdc    kbf org
4   rfc    kbf org

我要执行以下操作。!

姓名 和 ),我想比较文件B和文件A,再创建两列(' Newemployee '和' Org_change ')在文件B中。

新员工 '带的列' Y 姓名
组织变更 '带有'新组织名称(根据与表A的比较)'的栏,如果我们注意到下的组织发生了变化' 组织

到现在为止,我已经在两个数据框中连接了concat来获取新的雇员名称但没有得到进一步的线索,

full_set = pd.concat([B, A]).drop_duplicates(subset=['Name'])

1 回复 | 直到 7 年前

Uvar 7 年前

在删除副本时,您可以选择不保留任何一个副本,这基本上意味着您只保留唯一的值。如果其中一个数据帧是另一个数据帧的严格子集,这将为您提供更新。

diff_set = pd.concat([old, new]).drop_duplicates(subset=['Name'], keep=False)

看来你的指数不太匹配。如果遇到此问题,可能需要首先设置索引。

diff_set = pd.concat([old.set_index("Org"), new.set_index("Org")]).drop_duplicates(subset=['Name'], keep=False).reset_index(drop=False)

最后一个在哪里 reset_index

ll
Out[101]: 
  Name          Org
0  abc  ddc systems
1  sdc  ddc systems
2  csc  ddd systems
3  rdc      kbf org
4  rfc      kbf org

ll2
Out[102]: 
   Name          Org
0   abc  ddc systems
1   sdc  ddc systems
2   csc  ddd systems
3   rdc      kbf org
4   rfc      kbf org
5  Spam  ddc systems
6  John  ddc systems
7   Foo  ddd systems

diff_set = pd.concat([ll.set_index("Org"), ll2.set_index("Org")]).drop_duplicates(subset=['Name'], keep=False).reset_index(drop=False)

diff_set
Out[104]: 
           Org  Name
0  ddc systems  Spam
1  ddc systems  John
2  ddd systems   Foo

我可以添加任意数量的员工,它会继续工作。^^

推荐文章

Google User · Django管理员在`list_display中未显示`creation_date`字段`

6 月前

user29747013 · 如何创建一个新的数据框架,其中包含原始数据框架中列的聚合列?

6 月前

ÎÎÎ½Î· ÎÎ®Î¹Î½Î¿Ï · Python lxml.html语法错误:使用lxml find时XPATH的谓词无效

6 月前

user29715306 · from_users=和chats=电视节目中的差异

6 月前

Redshoe · 当执行numpy.genfromtxt()时,python是否会读取文件的所有行?

6 月前

RASEL MAHMUD · 为什么以及如何在is_even()函数内的IF条件中递归X变量在满足0后递增?[副本]

6 月前

prayner · 更新嵌套字典包含列表中的项

6 月前

Bringo Jr · 我可以在O(n)中解决这个问题吗?

6 月前

Dave · 如何在for循环中修改列表值

6 月前

Shukurullox Komiljonov · 从记录中获得相互和解。使用SQL

6 月前