python 序列去重并保持原始顺序操作
作者:ctrl A_ctrl C_ctrl V
一、简单的方法实现
def dedupe(items): seen = [] for item in items: if item not in seen: seen.append(item) return seen sequence = [1, 2, 3, 5, 2, 3, 4] print((dedupe(sequence))) # [1, 2, 3, 5, 4]
二、用 set 和 yield 实现
代码:
def dedupe(items): seen = set() # 集合set是一个无序不重复元素集 for item in items: if item not in seen: yield item seen.add(item) sequence = [1, 2, 3, 5, 2, 3, 4] print(list(dedupe(sequence))) # [1, 2, 3, 5, 4] # list(dedupe(sequence))是将生成器中的结果呈现出来
这里对set
和yield进行研究。如果不用yield可不可以呢,毕竟用生成器会很难理解,那么首先去掉yied
,返回seen:
def dedupe(items): seen = set() for item in items: if item not in seen: seen.add(item) return seen sequence = [1, 2, 3, 5, 2, 3, 4] print(list(dedupe(sequence))) # [1, 2, 3, 4, 5]
可以发现输出的元素并没有保持原有的顺序,这是因为set的特性导致的。set是一个一个无序不重复元素集,使用 add()方法向set中添加元素时并不会将元素添加到末尾,而是按照顺序插入到了中间位置。
我们可以逐步打印 seen 的内容看一下:
def dedupe(items): seen = set() for item in items: if item not in seen: seen.add(item) print("seen: ",seen) return seen sequence = [1, 2, 3, 5, 2, 3, 4] print("sequence元素: ",dedupe(sequence)) # output: seen: {1} seen: {1, 2} seen: {1, 2, 3} seen: {1, 2, 3, 5} seen: {1, 2, 3, 4, 5} sequence元素: {1, 2, 3, 4, 5}
可以发现向集合 {1, 2, 3, 5} 中 add(4),得到的是 {1, 2, 3, 4, 5},而不是 {1, 2, 3, 5, 4},这就是 set 无序性的体现。
那么为什么用 yield 就可以实现保持顺序的功能呢?因为 yield 生成器会逐个返回 1, 2, 3, 5, 4
那么为什么 print
(list(dedupe(sequence)) )会输出 [1, 2, 3, 5, 4] 呢?因为 list(dedupe(sequence)) 是将生成器中的结果呈现出来,直接打印生成器 print(dedupe(sequence)) 只会输出地址,不会输出内容,
三、Python列表去重并保持顺序为什么使用yield?
list(dedupe(a))的作用是将生成器中的结果呈现出来,所以顺序没有改变。修改一下函数就能看到seen,
如图:
在函数中打印seen:
可以看见在中间出现了一个集合,就是seen,如果去掉print中的list,则打印:
此时出现了一个生成器(generator
),但没有打印print
(seen)。为什么呢?因为不调用生成器的话,程序只执行到yeild item,不继续往下执行了。
我们可以使用next()方法调用生成器:
输出结果:
可以看出生成器调用了第一个数值5,此时停在第二个数值处,再用next方法调用时,将打印第二个数值2 ,再用next方法调用时,将打印第三个数值1 :
这里用next调用生成器时,必须将生成器实例化,即g = dedupe(a)
,如果仍然用next(dedupe(a))将一直打印5,因为Python会认为你又重新调用了一次函数。
结果:
到此这篇关于python 序列去重并保持原始顺序操作的文章就介绍到这了,更多相关python 序列去重内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!