Python中常用的统计检验代码分享
作者:Sitin涛哥
统计检验是数据分析中的重要工具,用于检验数据集中的差异、关联和分布等统计性质。Python 提供了丰富的库和函数,用于执行各种统计检验。本文将介绍常见的统计检验方法,并提供详细的示例代码,帮助大家了解如何在 Python 中执行这些检验。
t 检验
t 检验是一种用于比较两组数据均值是否存在显著差异的方法。在 Python 中,可以使用 scipy.stats 模块进行 t 检验。
import scipy.stats as stats # 生成两组样本数据 data1 = [25, 30, 35, 40, 45] data2 = [30, 32, 35, 38, 42] # 执行独立样本 t 检验 t_stat, p_value = stats.ttest_ind(data1, data2) print("t 统计量:", t_stat) print("p 值:", p_value) if p_value < 0.05: print("差异显著") else: print("差异不显著")
在上面的示例中,生成了两组样本数据 data1 和 data2,然后使用 ttest_ind 函数执行独立样本 t 检验。最后,根据 p 值的大小判断差异是否显著。
卡方检验
卡方检验用于比较观察频数与期望频数之间的差异,通常用于分析分类数据。在 Python 中,可以使用 scipy.stats 模块执行卡方检验。
import scipy.stats as stats # 创建观察频数表 observed = [[30, 15], [25, 20]] # 执行卡方检验 chi2, p_value, _, _ = stats.chi2_contingency(observed) print("卡方统计量:", chi2) print("p 值:", p_value) if p_value < 0.05: print("差异显著") else: print("差异不显著")
在上面的示例中,创建了一个观察频数表 observed,然后使用 chi2_contingency 函数执行卡方检验。最后,根据 p 值的大小判断差异是否显著。
Pearson 相关系数
Pearson 相关系数用于衡量两个连续变量之间的线性相关性。在 Python 中,可以使用 scipy.stats 模块计算 Pearson 相关系数。
import scipy.stats as stats # 创建两组连续变量数据 x = [1, 2, 3, 4, 5] y = [2, 4, 5, 4, 6] # 计算 Pearson 相关系数 correlation, _ = stats.pearsonr(x, y) print("Pearson 相关系数:", correlation) if abs(correlation) > 0.7: print("线性相关性强") else: print("线性相关性弱")
在上面的示例中,创建了两组连续变量数据 x 和 y,然后使用 pearsonr 函数计算它们之间的 Pearson 相关系数。最后,根据相关系数的大小判断线性相关性的强弱。
单样本 t 检验
单样本 t 检验用于比较单个样本的均值与已知均值之间是否存在显著差异。在 Python 中,可以使用 scipy.stats 模块执行单样本 t 检验。
import scipy.stats as stats # 单样本数据 data = [28, 30, 29, 32, 31] # 已知均值 known_mean = 30 # 执行单样本 t 检验 t_stat, p_value = stats.ttest_1samp(data, known_mean) print("t 统计量:", t _stat) print("p 值:", p_value) if p_value < 0.05: print("差异显著") else: print("差异不显著")
在上面的示例中,有一个单样本数据集 data 和一个已知的均值 known_mean,然后使用 ttest_1samp 函数执行单样本 t 检验,判断样本均值是否显著不同于已知均值。
Wilcoxon 符号秩检验
Wilcoxon 符号秩检验用于比较两组配对样本的差异,通常用于非正态分布数据。在 Python 中,可以使用 scipy.stats 模块执行 Wilcoxon 符号秩检验。
import scipy.stats as stats # 创建两组配对样本数据 before = [28, 30, 29, 32, 31] after = [27, 29, 28, 31, 30] # 执行 Wilcoxon 符号秩检验 w_stat, p_value = stats.wilcoxon(before, after) print("Wilcoxon 符号秩统计量:", w_stat) print("p 值:", p_value) if p_value < 0.05: print("差异显著") else: print("差异不显著")
在上面的示例中,创建了两组配对样本数据 before 和 after,然后使用 wilcoxon 函数执行 Wilcoxon 符号秩检验,判断两组样本的差异是否显著。
ANOVA
ANOVA(方差分析)用于比较多组样本均值之间是否存在显著差异。在 Python 中,可以使用 scipy.stats 模块执行单因素 ANOVA。
import scipy.stats as stats # 创建多组样本数据 group1 = [65, 68, 72, 70, 74] group2 = [58, 63, 65, 61, 59] group3 = [72, 70, 75, 71, 73] # 执行单因素 ANOVA f_stat, p_value = stats.f_oneway(group1, group2, group3) print("F 统计量:", f_stat) print("p 值:", p_value) if p_value < 0.05: print("差异显著") else: print("差异不显著")
在上面的示例中,创建了三组样本数据 group1、group2 和 group3,然后使用 f_oneway 函数执行单因素 ANOVA,判断多组样本均值是否存在显著差异。
Kolmogorov-Smirnov 检验
Kolmogorov-Smirnov 检验用于比较两组数据的分布是否相同。在 Python 中,可以使用 scipy.stats 模块执行 Kolmogorov-Smirnov 检验。
import scipy.stats as stats # 创建两组数据 data1 = [0.1, 0.2, 0.3, 0.4, 0.5] data2 = [0.2, 0.3, 0.4, 0.5, 0.6] # 执行 Kolmogorov-Smirnov 检验 ks_stat, p_value = stats.ks_2samp(data1, data2) print("KS 统计量:", ks_stat) print("p 值:", p_value) if p_value < 0.05: print("差异显著") else: print("差异不显著")
在上面的示例中,创建了两组数据 data1 和 data2,然后使用 ks_2samp 函数执行 Kolmogorov-Smirnov 检验,判断两组数据的分布是否相同。
Shapiro-Wilk 正态性检验
Shapiro-Wilk 正态性检验用于检验数据是否符合正态分布。在 Python 中,可以使用 scipy.stats 模块执行 Shapiro-Wilk 正态性检验。
import scipy.stats as stats # 创建样本数据 data = [2.3, 3.```python 7, 4.5, 6.8, 5.1, 8.2] # 执行 Shapiro-Wilk 正态性检验 statistic, p_value = stats.shapiro(data) print("Shapiro-Wilk 统计量:", statistic) print("p 值:", p_value) if p_value < 0.05: print("不符合正态分布") else: print("符合正态分布")
在上面的示例中,创建了一个样本数据集 data,然后使用 shapiro 函数执行 Shapiro-Wilk 正态性检验,判断数据是否符合正态分布。
线性回归
线性回归用于建立连续自变量与连续因变量之间的线性关系模型。在 Python 中,可以使用 scipy.stats 模块执行线性回归分析。
import scipy.stats as stats # 创建自变量和因变量数据 x = [1, 2, 3, 4, 5] y = [2, 4, 5, 4, 6] # 执行线性回归分析 slope, intercept, r_value, p_value, std_err = stats.linregress(x, y) print("斜率:", slope) print("截距:", intercept) print("相关系数:", r_value) print("p 值:", p_value) if p_value < 0.05: print("回归模型显著") else: print("回归模型不显著")
在上面的示例中,创建了自变量数据 x 和因变量数据 y,然后使用 linregress 函数执行线性回归分析,得到回归方程的斜率、截距、相关系数和 p 值。
分位数回归
分位数回归用于建立分位数与自变量之间的关系模型,通常用于处理异方差性或离群值较多的数据。在 Python 中,可以使用 statsmodels 库执行分位数回归分析。
import statsmodels.api as sm # 创建自变量和因变量数据 x = [1, 2, 3, 4, 5] y = [2, 4, 5, 4, 6] # 添加常数项 x = sm.add_constant(x) # 执行分位数回归分析 quantiles = [0.25, 0.5, 0.75] for q in quantiles: model = sm.QuantReg(y, x) result = model.fit(q=q) print(f"分位数 {q}:") print(result.summary())
在上面的示例中,创建了自变量数据 x 和因变量数据 y,然后使用 sm.QuantReg 类执行分位数回归分析,得到不同分位数下的回归结果。
这些是常见的统计检验方法和回归分析方法的示例代码,可以帮助进行数据分析和统计建模。根据不同的需求和数据类型,选择合适的方法进行分析和假设检验,以获得有意义的结果。
以上就是Python中常用的统计检验代码分享的详细内容,更多关于Python统计检验的资料请关注脚本之家其它相关文章!