python一行代码就能实现数据分析的pandas-profiling库
作者:程序员小寒
python pandas-profiling库
今天,我们将讨论 Python 中的一个神奇的库 pandas-profiling 。
在没有发现这个库之前,我很难相信可以使用一行代码来进行探索性数据分析(EDA)。
这个 pandas-profiling 库为你提供了一种生成给定数据帧的分析报告的方法。
生成的报告还可以保存为单独的 HTML 和 JSON 文件。
它提供了使用 pandas 加载到数据框中的任何数据集的描述性分析。这确实可以让你免于编写大量代码。
在一分钟之内,你就可以获得整个数据集的分析报告。
下面,我们一起来看看它神奇的效果吧。
安装库
首先我们需要使用 pip 进行安装。
pip install pandas pip install pandas-profiling
加载数据集
在进行分析之前,我们需要准备一个数据集。
在这里,我们将使用房价数据集。
数据集获取地址:
https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques
在此数据集中,总共给出了 81 个特征,包括目标特征 SalePrice。
任务是使用 80 个特征确定 SalePrice。
import pandas as pd df = pd.read_csv("train.csv") df.describe()
虽然 df.describe() 方法给出了特征的描述性分析,但它不如 pandas-profiling 的 ProfileReport 那么方便直观。
现在我们将运行 pandas_profiling.ProfileReport(df) 。
from pandas_profiling import ProfileReport reportGenerated = ProfileReport(df) reportGenerated
你还可以使用以下命令将此报告保存为 HTML 或 JSON 格式。
reportGenerate.to_file("Analysis.html") reportGenerate.to_file("Analysis.json")
然后在本地浏览器直接打开对应的 Analysis.html 文件。
下面是生成的报告的 GIF 图像。
在此文件的中,给出了变量计数、观察数、重复行和缺失值的详细信息。
之后,对于数据集中存在的每个特征,进行描述性的分析,例如有多少个不同的值,有多少个缺失值,它们对数据集中总缺失值的贡献有多大,分位数统计(例如最小值), Q1、中位数、Q3、最大值、四分位距以及均值、众数、标准差等描述性统计数据。
你还可以点击 “切换详细信息” 按钮查看更多详细信息。
它确实是一个非常方便的工具,可以对任何数据集进行描述性分析。
你可以在 github 上阅读有关 pandas-profiling 项目的更多信息。
https://github.com/ydataai/ydata-profiling
以上就是python一行代码就能实现数据分析的pandas-profiling库的详细内容,更多关于python pandas-profiling库的资料请关注脚本之家其它相关文章!