首页 > 脚本专栏 > python > python pandas-profiling库

python一行代码就能实现数据分析的pandas-profiling库

2024-01-30 09:53:57 作者：程序员小寒

这篇文章主要为大家介绍了python一行代码就能实现数据分析的pandas-profiling库,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

python pandas-profiling库

今天，我们将讨论 Python 中的一个神奇的库 pandas-profiling 。

在没有发现这个库之前，我很难相信可以使用一行代码来进行探索性数据分析（EDA）。

这个 pandas-profiling 库为你提供了一种生成给定数据帧的分析报告的方法。

生成的报告还可以保存为单独的 HTML 和 JSON 文件。

它提供了使用 pandas 加载到数据框中的任何数据集的描述性分析。这确实可以让你免于编写大量代码。

在一分钟之内，你就可以获得整个数据集的分析报告。

下面，我们一起来看看它神奇的效果吧。

首先我们需要使用 pip 进行安装。

pip install pandas
pip install pandas-profiling

在进行分析之前，我们需要准备一个数据集。

在这里，我们将使用房价数据集。

数据集获取地址：

在此数据集中，总共给出了 81 个特征，包括目标特征 SalePrice。

任务是使用 80 个特征确定 SalePrice。

import pandas as pd
df = pd.read_csv("train.csv")
df.describe()

虽然 df.describe() 方法给出了特征的描述性分析，但它不如 pandas-profiling 的 ProfileReport 那么方便直观。

现在我们将运行 pandas_profiling.ProfileReport(df) 。

from pandas_profiling import ProfileReport
reportGenerated = ProfileReport(df)
reportGenerated

你还可以使用以下命令将此报告保存为 HTML 或 JSON 格式。

reportGenerate.to_file("Analysis.html") 
reportGenerate.to_file("Analysis.json")

然后在本地浏览器直接打开对应的 Analysis.html 文件。

下面是生成的报告的 GIF 图像。

在此文件的中，给出了变量计数、观察数、重复行和缺失值的详细信息。

之后，对于数据集中存在的每个特征，进行描述性的分析，例如有多少个不同的值，有多少个缺失值，它们对数据集中总缺失值的贡献有多大，分位数统计（例如最小值）， Q1、中位数、Q3、最大值、四分位距以及均值、众数、标准差等描述性统计数据。

你还可以点击 “切换详细信息” 按钮查看更多详细信息。

它确实是一个非常方便的工具，可以对任何数据集进行描述性分析。

你可以在 github 上阅读有关 pandas-profiling 项目的更多信息。

https://github.com/ydataai/ydata-profiling

以上就是python一行代码就能实现数据分析的pandas-profiling库的详细内容，更多关于python pandas-profiling库的资料请关注脚本之家其它相关文章！