首页 > 脚本专栏 > python > pandas 按行或列的值对数据排序

pandas中按行或列的值对数据排序的实现

2023-02-27 09:25:36 作者：宁萌Julie

本文主要介绍了pandas中按行或列的值对数据排序的实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

在处理表格型数据时，常会用到排序，比如，按某一行或列的值对表格排序，要怎么做呢？

这就要用到 pandas 中的 sort_values() 函数。

一、按列的值对数据排序

先来看最常见的情况。

1.按某一列的值对数据排序

以下面的数据为例。

import pandas as pd

df_col = pd.DataFrame({'Name':['Paul','Richard', 'Betty',  'Philip','Anna'],
        'course1':[85,83,90,84,85],
        'course2':[90,82,79,71,86],
        'sport':['basketball', 'Volleyball', 'football', 'Basketball','baseball']},
         index=[1,2,3,4,5])  
df_col

	Name	course1	course2	sport
1	Paul	85	90	basketball
2	Richard	83	82	Volleyball
3	Betty	90	79	football
4	Philip	84	71	Basketball
5	Anna	85	86	baseball

在 sort_values() 函数中设置 by='列名'，即可以按这一列值的顺序重新排列行。

df_sort=df_col.sort_values(by='course2')
df_sort

	Name	course1	course2	sport
4	Philip	84	71	Basketball
3	Betty	90	79	football
2	Richard	83	82	Volleyball
5	Anna	85	86	baseball
1	Paul	85	90	basketball

如以上结果所示，默认是升序排列。还可以做降序排列，在 sort_values() 函数中设置 ascending=False 即可。例如：

df_sort=df_col.sort_values(by='course2',ascending=False)
df_sort

	Name	course1	course2	sport
1	Paul	85	90	basketball
5	Anna	85	86	baseball
2	Richard	83	82	Volleyball
3	Betty	90	79	football
4	Philip	84	71	Basketball

2. 按多列的值对数据排序

您是否遇到过这种情况：要排序的某一列数据有相同的值，此时结果会怎么样呢？我们来看下面的例子。

df_sort=df_col.sort_values(by='course1')
df_sort

	Name	course1	course2	sport
2	Richard	83	82	Volleyball
4	Philip	84	71	Basketball
1	Paul	85	90	basketball
5	Anna	85	86	baseball
3	Betty	90	79	football

从结果看到，“course1” 有两个相同的值 85，此时会依据 index 的先后顺序排列。

那如果不想按 index 顺序，想要自己设定相同值的排序方式，应该怎么做呢？

可以设置第二列，对于第一列的相同值，参照第二列的值排序。例如：

df_sort=df_col.sort_values(by=['course1','course2'])
df_sort

	Name	course1	course2	sport
2	Richard	83	82	Volleyball
4	Philip	84	71	Basketball
5	Anna	85	86	baseball
1	Paul	85	90	basketball
3	Betty	90	79	football

可以看到，by 参数中的第二列 “course2” 只在第一列 “course1” 中有相同值时起作用，因此只有 “Anna” 和 “Paul” 所在的这两行数据位置互换，其它行位置不变。

3. key 参数：设置排序时的数据变换函数

在实际中还可能会遇到这种情况，数据中大小写都有，比如例子数据的 “sport” 列。按这一列对数据排序，结果如下：

df_sort=df_col.sort_values(by=['sport'])
df_sort

	Name	course1	course2	sport
4	Philip	84	71	Basketball
2	Richard	83	82	Volleyball
5	Anna	85	86	baseball
1	Paul	85	90	basketball
3	Betty	90	79	football

看结果发现，大写字母排在小写字母前面，因此 “Volleyball” 所在行排在 “baseball” 所在行前面，但这并不是我们想要的排序结果。那应该怎么做，才能按字母顺序排序呢？

可以设置 sort_values() 函数的 key 参数。

df_sort=df_col.sort_values(by=['sport'],key=lambda col:col.str.lower())
df_sort

	Name	course1	course2	sport
5	Anna	85	86	baseball
1	Paul	85	90	basketball
4	Philip	84	71	Basketball
3	Betty	90	79	football
2	Richard	83	82	Volleyball

此时的排序结果就是按字母顺序排列。

4. 修改原数据

前面介绍的操作中，每次都生成了一个新的数据 df_sort，并没有改变原数据。

df_col

	Name	course1	course2	sport
1	Paul	85	90	basketball
2	Richard	83	82	Volleyball
3	Betty	90	79	football
4	Philip	84	71	Basketball
5	Anna	85	86	baseball

但是，有时可能数据太大，而原数据后续不再使用。为了节省空间，想直接在原数据上改动。应该怎么办呢？

只要在 sort_values() 函数中设置 inplace=True。

df_col.sort_values(by='course2',inplace=True)
df_col

	Name	course1	course2	sport
4	Philip	84	71	Basketball
3	Betty	90	79	football
2	Richard	83	82	Volleyball
5	Anna	85	86	baseball
1	Paul	85	90	basketball

二、按行的值对数据排序

需要注意的是，这种情况只适用于各列数据类型相同的情况，例如下面例子中的数据，每一列数据都是数值型。而前面例子的数据既有数值型，又有字符型，无法按行的值排序。

df_row = pd.DataFrame({
        'course1':[91,85,90,84,92],
        'course2':[72,81,76,71,79],
        'course3':[93,85,88,94,86]},
         index=['Paul','Richard', 'Betty',  'Philip','Anna'])
df_row

	course1	course2	course3
Paul	91	72	93
Richard	85	81	85
Betty	90	76	88
Philip	84	71	94
Anna	92	79	86

按行的值排序时，设置 by 参数为某行的 index 名，并且 axis=1。

df_sort=df_row.sort_values(by='Anna',axis=1)
df_sort

	course2	course3	course1
Paul	72	93	91
Richard	81	85	85
Betty	76	88	90
Philip	71	94	84
Anna	79	86	92

按行值排序在 sort_values() 函数中设置 ascending, key, inplace 等参数的方式都与前面介绍的按列值排序相同。这里仅以按多行的值对数据排序为例。

df_sort=df_row.sort_values(by=['Richard','Paul'],axis=1,ascending=False)
df_sort

	course3	course1	course2
Paul	93	91	72
Richard	85	85	81
Betty	88	90	76
Philip	94	84	71
Anna	86	92	79

参考

1.https://www.geeksforgeeks.org/sort-rows-or-columns-in-pandas-dataframe-based-on-values/#courses

2.https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html

到此这篇关于pandas中按行或列的值对数据排序的实现的文章就介绍到这了,更多相关pandas 按行或列的值对数据排序内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！