使用Apache Spark处理Excel文件的方法
作者:i查拉图斯特拉如是
前言
在日常的工作中,表格内的工具是非常方便的x,但是当表格变得非常多的时候,就需要一些特定的处理。Excel作为功能强大的数据处理软件,广泛应用于各行各业,从企业管理到数据分析,可谓无处不在。然而,面对大型且复杂的数据,Excel的处理能力可能力不从心。
对此,我们可借助Apache Spark这一分布式计算框架,凭借其强大的计算与数据处理能力,快速有效地处理Excel数据。这些数据进行一个分析,整理,筛选,排序。分析整理有用的内容。
操作
创建一个spark项目,在IntelliJ IDEA中创建Spark项目时,默认的目录结构如下:
project-root/ │ ├── src/ │ ├── main/ │ │ ├── java/ │ │ │ └── (Java source files) │ │ └── scala/ │ │ └── (Scala source files) │ └── test/ │ ├── java/ │ │ └── (Test Java source files) │ └── scala/ │ └── (Test Scala source files) ├── resources/ │ └── (Resource files) └── target/ └── (Compiled output and build artifacts)
导入包
在build.sbt中添加操作文件的包
libraryDependencies ++= Seq( "org.apache.spark" %% "spark-core" % sparkVersion, "org.apache.spark" %% "spark-sql" % sparkVersion, "org.apache.spark" %% "spark-mllib" % sparkVersion, "org.apache.spark" %% "spark-streaming" % sparkVersion, "com.norbitltd" %% "spoiwo_2.12" % "1.4.1", "com.crealytics" %% "spark-excel" % "0.13.7", "com.monitorjbl" %% "xlsx-streamer" % "2.1.0" )
测试数据
name | age |
Mic | 1 |
Andy | 3 |
Steven | 1 |
首先
使用Spark读取Excel文件十分简便。只需在DataFrame API中指定文件路径及格式,Spark即可自动导入Excel文件并将其转成DataFrame,进而展开数据处理和分析。
代码示例
Spark不但提供多样的数据处理方式,更在DataFrame API中支持筛选、聚合和排序等操作。此外,内置丰富的数据处理函数和操作符使处理Excel数据更为便捷。
package com.example.spark import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.SparkSession object SparkTest { def main(args: Array[String]): Unit = { //scala版本 val sparkConf = new SparkConf() sparkConf.setMaster("local") //本地单线程运行 sparkConf.setAppName("testJob") // val sc = new SparkContext(sparkConf) val spark = SparkSession.builder().config(sparkConf) .appName("Excel Demo") .getOrCreate() // 读取 Excel 文件 val df = spark.read .format("com.crealytics.spark.excel") .option("dataAddress", "'Sheet2'!A1:B2") // 可选,设置选择数据区域 例如 A1:C2。 .option("useHeader", "false") // 必须,是否使用表头,false的话自己命名表头(_c0),true则第一行为表头 .option("treatEmptyValuesAsNulls", "true") // 可选, 是否将空的单元格设置为null ,如果不设置为null 遇见空单元格会报错 默认t: true .option("inferSchema", "true") // 可选, default: false //.option("addColorColumns", "true") // 可选, default: false //.option("timestampFormat", "yyyy-mm-dd hh:mm:ss") // 可选, default: yyyy-mm-dd hh:mm:ss[.fffffffff] //.option("excerptSize", 6) // 可选, default: 10. If set and if schema inferred, number of rows to infer schema from //.option("workbookPassword", "pass") // 可选, default None. Requires unlimited strength JCE for older JVMs==== //.option("maxRowsInMemory", 20) // 可选, default None. If set, uses a streaming reader which can help with big files==== .schema(schema) // 可选, default: Either inferred schema, or all columns are Strings // .option("header", "true") .load("path/to/excel/file.xlsx") // 显示 DataFrame 的内容 df.show() // +-------+---+ // | name|age| // +-------+---+ // | Mic| 1| // | Andy| 3| // | Steven| 1| // +-------+---+ // 将 DataFrame 写入 Excel 文件 df.write .format("com.crealytics.spark.excel") .option("dataAddress", "'Sheet'!A1:B2") .option("useHeader", "true") //.option("dateFormat", "yy-mmm-d") // Optional, default: yy-m-d h:mm //.option("timestampFormat", "mm-dd-yyyy hh:mm:ss") // Optional, default: yyyy-mm-dd hh:mm:ss.000 .mode("append") // Optional, default: overwrite. .option("header", "true") .save("path/to/save/excel/file.xlsx") } }
数据处理结束后,可将结果保存在全新Excel文件或其他格式文件中。借助DataFrame API,无论保存在本地文件系统还是云端,均能轻松实现。保留数据亦可依照需求选择不同输出格式,如CSV,XLSX等。
总结一下
虽然仅处理基础数据,但在集群环境下,Spark展现出优秀的大规模数据处理能力。无论海量Excel数据还是复杂的结构化数据,都在Spark协助下,能轻松应对并满足各种数据处理与分析任务。
借助Apache Spark处理Excel文件,充分发挥分布式计算潜能,可让数据处理与分析过程更为高效出色,同时也极大提升数据处理效率和准确性。希望本文能让您对Spark处理Excel有更深入了解,在实践中更好地应用。
引用
https://github.com/crealytics/spark-excel
最后
到此这篇关于使用Apache Spark处理Excel文件的简易指南的文章就介绍到这了,更多相关Apache Spark处理Excel文件内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!