python Sweetviz探索性数据可视化分析库使用特征详解
作者:程序员小寒
python Sweetviz库
今天给大家分享一个神奇的 python 库,Sweetviz。
https://github.com/fbdesignpro/sweetviz
探索性数据分析是一个我们倾向于使用可视化方法来分析数据集并总结数据集主要特征的过程。
EDA 非常重要,因为如果你不熟悉正在处理的数据集,那么你将无法从该数据中推断出某些内容。然而,EDA通常需要花费大量时间。
但是,如果我告诉你 python 可以在一些库的帮助下自动化 EDA 过程呢?
在本文中,我们将使用 「Sweetviz」 实现 EDA 自动化。
它是一个 Python 库,可以生成「漂亮的高密度可视化」效果,从而通过一行代码启动 EDA(探索性数据分析)。输出是一个完全独立的 HTML 应用程序。
该系统是围绕快速可视化目标值和比较数据集而构建的。其目标是帮助快速分析目标特征、训练与测试数据以及其他此类数据表征任务。
安装库
与任何其他 python 库一样,我们可以使用下面给出的 pip install 命令来安装 sweetviz。
pip install sweetviz
分析数据集
让我们使用来自 Kaggle 的鸢尾花数据集。
你可以从此处下载数据集文件 ( https://www.kaggle.com/arshid/iris-flower-dataset)
# Import sweetviz and pandas libraries import sweetviz as sv import pandas as pd # Now read the dataset using pd.read_csv() function data = pd.read_csv('IRIS.csv') # Split first 125 entries/rows into train data frame train = data.iloc[:125] # Split next rows from 125 until end into test data frame test = data.iloc[125:]
现在你可以使用 show_html() 方法将数据框的分析结果显示为 HTML 文件。
report=sv.analyze(train) report.show_html()
现在,如果你想比较两个数据帧(即训练集、测试集)之间的分析,你可以使用 sweetviz 库中的 compare() 函数。
compare_report=sv.compare(train,test) compare_report.show_html()
如果你想比较两个子群体之间的分析,那么你可以使用 sweetviz 库中的 compare_intra() 函数。
请注意,在内部,这会创建 2 个单独的数据框来表示每个结果组。
compare_intra_report=sv.compare_intra(train,train['species']=='Iris-setosa',['setosa','other']) compare_intra_report.show_html()
更多的功能期待大家去尝试,以上就是python Sweetviz探索性数据可视化分析库使用特征详解的详细内容,更多关于python Sweetviz库的资料请关注脚本之家其它相关文章!