pycharm连接spark教程
1.解压Hadoop
解压到任意盘,路径不要带中文路径
进入保存后的bin目录,查看,是否解压成功
2.解压spark
到任意位置,路径不要带有中文
3. 打开pycharm
把Hadoop,spark环境变量配置到pycharm中。
3.1新建项目
3.2在项目中创建一个python文件
3.3把Hadoop_home
python_home,pythonpath添加到Pycharm中.
- 1.HADOOP_HOME
- 2.SPARK_HOME
- 3.PYTHONPATH
注意!!!
PYTHONPATH路径要添加到D:\spark\spark-2.4.6-bin-hadoop2.7\python\lib\py4j-0.10.7-src.zip下
3.4 检查是否有以下软件包
3.4.1 如果没有请按照以下教程下载,后期需要
3.4.2安装py4j
3.4.3安装pyspark推荐2.4.6版本
3.4.4安装pip
3.5安装findspark
4.把winutils.exe插件
放到Hadoop解压后的/bin目录下面
5.把以下代码
复制到4.2步骤中,新建的python文件中
1 2 3 4 5 6 7 8 9 10 11 | #添加此代码 import findspark findspark.init() #在spark前,添加此代码 from pyspark.sql import SparkSession spark = SparkSession.builder.appName( "WordCount" ).getOrCreate() spark.sparkContext.textFile( "file:///D:/Hadoop/hadoop-2.7.7/README.txt" )\ .flatMap( lambda x: x.split( ' ' ))\ . map ( lambda x: (x, 1 ))\ .reduceByKey( lambda x, y: x + y)\ .foreach( print ) |
必须要有这句话在spark前面!!!
6.测试
出现以上内容,表示pycharm连接spark成功。
总结
以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。
微信公众号搜索 “ 脚本之家 ” ,选择关注
程序猿的那些事、送书等活动等着你
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权/违法违规/事实不符,请将相关资料发送至 reterry123@163.com 进行投诉反馈,一经查实,立即处理!
相关文章
如何解决pycharm中用matplotlib画图不显示中文的问题
这篇文章主要介绍了如何解决pycharm中用matplotlib画图不显示中文的问题,文章围绕主题展开详细的内容介绍,具有一定的参考价值,感兴趣的小伙伴可以参考一下2022-06-06Python的地形三维可视化Matplotlib和gdal使用实例
这篇文章主要介绍了Python的地形三维可视化Matplotlib和gdal使用实例,具有一定借鉴价值,需要的朋友可以了解下。2017-12-12用Python实现定时备份Mongodb数据并上传到FTP服务器
这篇文章主要介绍了用Python实现定时备份Mongodb数据并上传到FTP服务器,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧2021-01-01
最新评论