python中numpy 数组过滤详解
作者:wang_yb
在numpy
中,数组可以看作是一系列数值的有序集合,可以通过下标访问其中的元素。
处理数组的过程中,经常需要用到数组过滤功能。
过滤功能可以在处理数据时非常有用,因为它可以使数据更加干净和可读性更强。
例如,在进行数据分析时,通常需要去除异常值,过滤掉不必要的元素可以使数据更加易于分析和处理。
numpy
本身提供了很多针对特定要求的过滤函数,
不过本篇只介绍最基本的过滤方式,通过最基本的过滤方式来揭示其过滤的原理。
1. 比较
比较是过滤的前提,因为通过比较才能确定过滤的条件。
1.1. 数组和单个数字
import numpy as np arr = np.random.randint(0, 10, (3, 3)) print(arr) #运行结果 [[4 1 4] [7 6 1] [8 9 5]] print(arr > 5) #运行结果 [[False False False] [ True True False] [ True True False]]
数组和单个数字比较,也满足上一篇介绍的广播原则,也就是数组arr
的每个元素都和数字5
进行了比较。
比较的结果是和arr
相同结构的数组,数组中的元素是bool
值。
满足比较条件是True
,不满足比较条件的是False
。
1.2. 数组和数组
除了和单个数字比较之外,数组之间也是可以比较的。
arr1 = np.random.randint(0, 10, (3, 3)) print(arr1) #运行结果 [[9 7 3] [2 8 5] [2 2 3]] arr2 = np.random.randint(0, 10, (3, 3)) print(arr2) #运行结果 [[1 6 0] [0 1 8] [9 0 5]] print(arr1 > arr2) #运行结果 [[ True True True] [ True True False] [False True False]]
数组之间的比较就是相同位置的元素之间比较,如果两个数组的结构不一样,会按照上一篇介绍的广播计算方式来扩充数组。
比如:
arr1 = np.random.randint(0, 10, (3, 3)) print(arr1) #运行结果 [[9 6 0] [1 4 9] [1 1 4]] arr2 = np.random.randint(0, 10, (3, 1)) print(arr2) #运行结果 [[1] [0] [9]] print(arr1 > arr2) #运行结果 [[ True True False] [ True True True] [False False False]]
上面的数组arr2,按广播规则被扩充成:
[[1 1 1]
[0 0 0]
[9 9 9]]
2. 掩码
所谓掩码,其实就是上面的各个示例中的比较结果。
也就是只包含bool值的数组,比如:
[[ True True False]
[ True True True]
[False False False]]
我们就是根据这个掩码,来过滤出数组中的True
或者 False
位置的元素。
3. 过滤
过滤就是根据掩码,选择出符合条件的元素。
3.1. 单条件过滤
arr = np.random.randint(0, 10, (3, 3)) print(arr) #运行结果 [[8 4 0] [2 2 9] [9 5 9]] print(arr[arr > 5]) #运行结果 [8 9 9 9]
最后得到的是arr
中值大于5
的元素数组。
其中 arr > 5
的结果就是上一节提到的掩码,最后过滤出的元素就是根据这个掩码得到的。
除了跟单独的数字比较,也可以和数组比较:
arr1 = np.random.randint(0, 10, (3, 3)) print(arr1) #运行结果 [[3 4 7] [4 6 2] [7 2 1]] arr2 = np.random.randint(0, 10, (3, 3)) print(arr2) #运行结果 [[2 3 1] [7 7 7] [1 6 4]] print(arr1[arr1 > arr2]) #运行结果 [3 4 7 7]
3.2. 多条件过滤
多条件过滤使用 &
和 |
来连接不同的条件。
arr1 = np.random.randint(0, 10, (3, 3)) print(arr1) #运行结果 [[1 0 5] [7 4 9] [8 5 4]] arr2 = np.random.randint(0, 10, (3, 3)) print(arr2) #运行结果 [[6 4 1] [0 1 1] [8 5 8]] print(arr1[(arr1 > 5) & (arr1 > arr2)]) #运行结果 [7 9]
过滤arr1
中大于5
** 并且 **对应位置比arr2
大的元素。
arr1 = np.random.randint(0, 10, (3, 3)) print(arr1) #运行结果 [[1 0 5] [7 4 9] [8 5 4]] arr2 = np.random.randint(0, 10, (3, 3)) print(arr2) #运行结果 [[6 4 1] [0 1 1] [8 5 8]] print(arr1[(arr1 > 5) | (arr1 > arr2)]) #运行结果 [5 7 4 9 8]
过滤arr1
中大于5
** 或者 **对应位置比arr2
大的元素。
4. 总结回顾
本篇主要介绍了过滤的基本原理,首先从比较开始,比较的结果是掩码,最后通过掩码过滤数组。
到此这篇关于python中numpy 数组过滤详解的文章就介绍到这了,更多相关numpy 数组过滤内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!