python pandas 组内排序、单组排序、标号的实例
作者:kingsam_
摘要:本文主要是讲解一下,如何进行排序。分为两种情况,不分组进行排序和组内进行排序。什么意思呢?具体来说,我举个栗子。
****注意****
如果只是单纯想对某一列进行排序,而不进行打序号的话直接使用.sort_values就可以了。下文是关于如何把序号也打上的
————————————————————————————
我们有一个数据集如下:
我们下面想进行两种排序。先说第一种比较简单的也是很常用的,简单的对某一列进行排序然后添加一列序号。
例如,我们队comment_num这一列进行从大到小的排序,然后给出序号。如下图:
可以看到,sort_num这一列就是我们队comment_num的排序。
如何实现呢?很简单,代码如下(数据集为data):
data['sort_num']=data['comment_num'].rank(ascending=0,method='dense')
这里,我们用到了两个参数,第一个很好理解 ascending,就是选择是升序还是降序排列。
另外一个参数method,这个参数很重要。我下面详细讲一下。
有时候,我们排序的时候会遇到相同大小,这个时候怎么处理呢?method其实就是让我们选择如何处理。
有以下几种处理方案:
第一种情况,如果出现相等,则序号一样,之后序号照常递增。这种情况就是上图的,我们看到comment_num等于4的有2个,序号为1。comment_num等于3的时候,序号为2,这个叫做正常按1依次递增。这和时候method='dense'
第二种情况,如果出现相等,则取最先出现的值序号为“最小”,其他相同值依次按1递增,如果把上面代码method='first',就是实现这种效果,效果如下图:
data['sort_num']=data['comment_num'].rank(ascending=0,method='first')
comment_num中,4最大,并且第1行中的4最先出现,故序号为1。
第三种情况和第四种情况比较复杂。文字不好说明,下面直接放代码和效果。
当method='min'时
data['sort_num']=data['comment_num'].rank(ascending=0,method='min')
当method='max'时
data['sort_num']=data['comment_num'].rank(ascending=0,method='max')
--------------------------------分割线--------------------------------------
上面只是某一列的排序,下面是组内排序。什么是意思?同样看下面的例子
假如,我想对cate为7的comment_num进行排序,同样也对,cate为8的comment_num进行排序。也就是说,对comment_num排序的时候,只考虑相同的cate,这个就是对组内进行排序。
实现的效果应该如下图:
实现代码也很简单。
data['group_sort']=data['comment_num'].groupby(data['cate']).rank(ascending=0,method='dense')
以上这篇python pandas 组内排序、单组排序、标号的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。