Python DataFrame实现固定周期内统计每列的非零值
作者:南洲.
在数据处理中,使用DataFrame统计固定周期内每列的非零值数量是一种常见需求,通过将数据分组并使用计数函数,可以方便地实现此目标,具体方法包括首先计算每列的0值个数,然后通过总数减去0值个数得到非零值的数量
DataFrame实现固定周期内统计每列的非零值
1、概述
最近做一个数值统计,统计固定周期内(比如100行统一次)每列的非零值,实现不难,先统计0值个数,再计算非零值个数,主要是有些关于dataframe的操作技巧可以作为以后的参考。
data.csv文件数据示例格式如下:
想要得到的结果为:
2、代码
import pandas as pd def non_zeros_count(df): s = 0 calc_interval = 5 # 统计周期数 new_columns = [] for i in range(len(df.columns)): new_columns.append(df.columns[i]+'_non_zero_count') # 重新组织列名 non_zeros_count = pd.DataFrame(columns=df.columns[1:]) # 新建dataframe 储存最后统计结果(没有计算第一列“时间”) # 对所有数据按照每 “calc_interval” 计算每个字段中的非0个数 while s + calc_interval <= df.shape[0]: data_piece = df.iloc[s:s + calc_interval, 1:] count_zero = data_piece.apply(lambda x: x.value_counts().get(0.0, 0.0)) # 0值个数 # np.count_nonzero(data_piece,axis = 0) #这种方法也可以得到,但是得到的是类型是ndarray non_zeros = calc_interval - count_zero # 非零值个数(每列计算周期内的总数-每列的0值数) non_zeros_to_frame = non_zeros.to_frame() # series转dataframe non_zeros_transp = pd.DataFrame(non_zeros_to_frame.values.T, index=non_zeros_to_frame.columns, columns=non_zeros_to_frame.index) # 取转置 non_zeros_count = pd.concat([non_zeros_count, non_zeros_transp]) # 数据合并 s = s + calc_interval non_zeros_count.index = [i for i in range(non_zeros_count.shape[0])] # non_zeros_count.values.reshape(30,24) # dataframe non_zeros_count.columns = new_columns[1:] # 重新修改列名 non_zeros_count.to_csv('./non_zeros_count.csv',encoding= 'utf-8') if __name__=='__main__': sv_data = pd.read_csv('data.csv',encoding='utf-8') non_zeros_count(sv_data)
总结
以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。