python dataprep库简化加速数据科学操作
作者:程序员小寒
python dataprep数据科学库
今天给大家分享一个超酷的 python 库,dataprep。
https://github.com/sfu-db/dataprept
Dataprep 是一个开源的 Python 库,它的主要目标是简化和加快数据科学操作,特别关注简化探索性数据分析(EDA) 阶段。
通过利用 DataPrep 的强大功能,数据科学家可以显着减少执行 EDA 任务所花费的时间。
该库包含三个主要的API供我们使用,它们是:
- 从常见数据源收集数据(dataprep.connector )
- 进行探索性数据分析(dataprep.eda)
- 清理和标准化数据(dataprep.clean)
DataPrep 包旨在实现快速数据探索,并与 Pandas 的 DataFrame 对象良好配合。
库的安装
我们将首先使用 pip 安装 Dataprep 库。下面给出的命令将执行此操作。
pip install -U dataprep
数据准备
DataPrep 使我们能够使用一行代码创建交互式配置文件报告。
该报告对象是一个与我们的 Notebook 分离的 HTML 对象,具有多种探索选择。
让我们使用示例数据尝试该 API。
from dataprep.datasets import load_dataset from dataprep.eda import create_report df = load_dataset("titanic") df.head()
我们将使用泰坦尼克号样本数据集作为我们的数据。
加载数据后,我们将使用 create_report
函数来生成交互式报告。
create_report(df).show_browser()
正如我们在上面的 GIF 中看到的,API 创建了一个很好的交互式报告供我们探索。
让我们尝试一一剖析这些信息。
概述选项卡
从概述选项卡中,我们可以看到数据集中的所有概述信息。
我们可以获得的信息包括缺失数据数量和百分比、重复数据、变量数据类型以及每个变量的详细信息。
变量选项卡
变量选项卡为我们提供了数据集中每个变量的详细信息。
几乎你需要的所有信息都可用,例如,分位数和描述性统计、分布和正态性。
交互选项卡
交互选项卡将从两个数值变量创建散点图。
我们可以自己设置 X 轴和 Y 轴,这使我们能够控制如何可视化它。
相关性选项卡
相关性选项卡为我们提供了数值之间的统计相关性。
目前,我们可以使用三种计算:Pearson、Spearman 和 KendallTau。
缺失值选项卡
缺失值选项卡为我们提供了有关选项卡中缺失值的所有详细信息。
我们可以选择条形图、频谱、热图和树状图来充分探索缺失值信息。
数据清理
DataPrep Cleaning API 集合提供了 140 多个 API 来清理和验证我们的 DataFrame。
让我们通过泰坦尼克号数据集示例尝试列标题清理功能。
from dataprep.clean import clean_headers clean_headers(df, case = 'const').head()
使用 “ Const ” 大小写,我们最终会得到所有大写的列名称。
如果你想要一个完整干净的 DataFrame,我们可以使用 DataPrep 中的 clean_df API 。
该 API 将有两个输出—推断的数据类型和清理后的 DataFrame。
from dataprep.clean import clean_df inferred_dtypes, cleaned_df = clean_df(df)
以上就是python dataprep库简化加速数据科学操作的详细内容,更多关于python dataprep数据科学库的资料请关注脚本之家其它相关文章!