Pandas的AB BA类型数据框去重复
作者:Victor
这篇文章主要为大家介绍了Pandas的AB BA类型数据框去重复实现示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
正文
从string-db下载蛋白质相互作用的信息,在处理时发现蛋白A与B互作被记录了两次比如下边的例子(即AB、BA)
df.drop_duplicates() # Symbol1 Symbol2 # Gnai3 Pdcl2 # Pdcl2 Gnai3 # Gm4340 Gm3376 # Gm3376 Gm4340
而且drop_duplicates
不能去除重复,因为他们在不同的列,因此可以想个方法,新建一列。
字符串的比较大小
字符串的比较大小是根据字符串按位比较,两个字符串第一位字符的ascii码谁大,字符串就大,不再比较后面的,比如
"Gnai3">"Pdcl2" # False
对axis=1
是对每一行循环,总是把大的放在前边。
df.loc[:,"temp"]=df.apply(lambda x: f"{x[0]}-{x[1]}" if x[0]>x[1] else f"{x[1]}-{x[0]}",axis=1) # Symbol1 Symbol2 temp # Gnai3 Pdcl2 Pdcl2-Gnai3 # Pdcl2 Gnai3 Pdcl2-Gnai3 # Gm4340 Gm3376 Gm4340-Gm3376 # Gm3376 m4340 Gm4340-Gm3376
对temp的行去重复
这个时候再对temp的行去重复,就可以了
df.drop_duplicates(subset="temp") # Symbol1 Symbol2 temp # Pdcl2 Gnai3 Pdcl2-Gnai3 # Gm4340 Gm3376 Gm4340-Gm3376
最后再删除temp列
df.drop_duplicates(subset="temp").drop(columns="temp") # Symbol1 Symbol2 # Gnai3 Pdcl2 # Gm4340 Gm3376
以上就是Pandas的AB BA类型数据框去重复的详细内容,更多关于Pandas数据框去重复的资料请关注脚本之家其它相关文章!