python

关注公众号 jb51net

关闭
首页 > 脚本专栏 > python > python pandas-profiling库

python一行代码就能实现数据分析的pandas-profiling库

作者:程序员小寒

这篇文章主要为大家介绍了python一行代码就能实现数据分析的pandas-profiling库,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

python pandas-profiling库

今天,我们将讨论 Python 中的一个神奇的库 pandas-profiling 。

在没有发现这个库之前,我很难相信可以使用一行代码来进行探索性数据分析(EDA)。

这个 pandas-profiling 库为你提供了一种生成给定数据帧的分析报告的方法。

生成的报告还可以保存为单独的 HTML 和 JSON 文件

它提供了使用 pandas 加载到数据框中的任何数据集的描述性分析。这确实可以让你免于编写大量代码。

在一分钟之内,你就可以获得整个数据集的分析报告。

下面,我们一起来看看它神奇的效果吧。

安装库

首先我们需要使用 pip 进行安装。

pip install pandas
pip install pandas-profiling

加载数据集

在进行分析之前,我们需要准备一个数据集。

在这里,我们将使用房价数据集。

数据集获取地址:

https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques 

在此数据集中,总共给出了 81 个特征,包括目标特征 SalePrice。

任务是使用 80 个特征确定 SalePrice。

import pandas as pd
df = pd.read_csv("train.csv")
df.describe()

虽然 df.describe() 方法给出了特征的描述性分析,但它不如 pandas-profiling 的 ProfileReport 那么方便直观。

现在我们将运行 pandas_profiling.ProfileReport(df) 。

from pandas_profiling import ProfileReport
reportGenerated = ProfileReport(df)
reportGenerated

你还可以使用以下命令将此报告保存为 HTML 或 JSON 格式。

reportGenerate.to_file("Analysis.html") 
reportGenerate.to_file("Analysis.json")

然后在本地浏览器直接打开对应的 Analysis.html 文件。

下面是生成的报告的 GIF 图像。

在此文件的中,给出了变量计数、观察数、重复行和缺失值的详细信息。

之后,对于数据集中存在的每个特征,进行描述性的分析,例如有多少个不同的值,有多少个缺失值,它们对数据集中总缺失值的贡献有多大,分位数统计(例如最小值), Q1、中位数、Q3、最大值、四分位距以及均值、众数、标准差等描述性统计数据。

你还可以点击 “切换详细信息” 按钮查看更多详细信息。

它确实是一个非常方便的工具,可以对任何数据集进行描述性分析。

你可以在 github 上阅读有关 pandas-profiling 项目的更多信息。

https://github.com/ydataai/ydata-profiling 

以上就是python一行代码就能实现数据分析的pandas-profiling库的详细内容,更多关于python pandas-profiling库的资料请关注脚本之家其它相关文章!

您可能感兴趣的文章:
阅读全文