PyCharm+PySpark远程调试的环境配置的方法

 更新时间:2018年11月29日 09:45:46   作者:Mars_myCafe  
今天小编就为大家分享一篇PyCharm+PySpark远程调试的环境配置的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

Python客栈送红包、纸质书

前言:前两天准备用 Python 在 Spark 上处理量几十G的数据,熟料在利用PyCharm进行PySpark远程调试时掉入深坑,特写此博文以帮助同样深处坑中的bigdata&machine learning fans早日出坑。

Version :Spark 1.5.0、Python 2.7.14

1. 远程Spark集群环境

首先Spark集群要配置好且能正常启动,版本号可以在Spark对应版本的官方网站查到,注意:Spark 1.5.0作为一个比较古老的版本,不支持Python 3.6+;另外Spark集群的每个节点的Python版本必须保持一致。这里只讲如何加入pyspark远程调试所需要修改的部分。在$SPARK_HOME/conf/spark-env.sh中添加一行:

1
export PYSPARK_PYTHON=/home/hadoop/anaconda2/bin/python2

这里的Python路径是集群上Python版本的路径,我这里是用的anaconda安装的Python2,所以路路径如上。正常启动Spark集群后,在命令行输入pyspark后回车,能正确进入到pyspark shell。

2. 本地PyCharm配置

首先将Spark集群的spark-1.5.0部署包拷贝到本地机器,并在/etc/hosts(Linux类机器)或C:\Windows\System32….\hosts(Windows机器)中加入Spark集群Master节点的IP与主机名的映射;本地正确安装Spark集群同版本Python;

安装py4j

PyCharm+PySpark远程调试的环境配置

添加spark-1.5.0/python目录

PyCharm+PySpark远程调试的环境配置

新建一个Python文件Simple,编辑Edit Configurations添加SPARK_HOME变量

PyCharm+PySpark远程调试的环境配置

写一个类似下面的简单测试程序

1
2
3
4
5
6
7
8
9
10
11
12
13
14
# -*- encoding: UTF-8 -*-
# @auther:Mars
# @datetime:2018-03-01
from pyspark import SparkContext
 
sc = SparkContext("spark://master:7077","Simple APP")
logData = sc.textFile("hdfs://master:9000/README.md").cache()
 
numAs = logData.filter(lambda s: 'a' in s).count()
numBs = logData.filter(lambda s: 'b' in s).count()
 
print("Lines with a: %i, lines with b: %i"%(numAs, numBs))
 
sc.stop()

运行可以得到看到下图,就OK了~

PyCharm+PySpark远程调试的环境配置

切记,1)本地与Spark集群的版本要一致;2)程序中不要用IP地址(不信可以试试,如果你用IP地址不报错,请告知我~谢谢)

以上这篇PyCharm+PySpark远程调试的环境配置的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

蓄力AI

微信公众号搜索 “ 脚本之家 ” ,选择关注

程序猿的那些事、送书等活动等着你

原文链接:https://blog.csdn.net/mycafe_/article/details/79430320

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权/违法违规/事实不符,请将相关资料发送至 reterry123@163.com 进行投诉反馈,一经查实,立即处理!

相关文章

  • Python 绘制桑基图全面解析

    Python 绘制桑基图全面解析

    桑基图,即桑基能量分流图,也叫桑基能量平衡图。它是一种特定类型的流程图,图中延伸的分支的宽度对应数据流量的大小,通常应用于能源、材料成分、金融等数据的可视化分析。试了一下用python画桑基图,在这里整理了一下分享给大家
    2021-09-09
  • 浅谈matplotlib.pyplot与axes的关系

    浅谈matplotlib.pyplot与axes的关系

    这篇文章主要介绍了浅谈matplotlib.pyplot与axes的关系,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-03-03
  • python快速安装OpenCV的步骤记录

    python快速安装OpenCV的步骤记录

    这篇文章主要给大家介绍了关于python快速安装OpenCV的相关资料,文中通过图文介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-02-02
  • python 实现list或string按指定分段

    python 实现list或string按指定分段

    今天小编就为大家分享一篇python 实现list或string按指定分段,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12
  • Python实现的文本对比报告生成工具示例

    Python实现的文本对比报告生成工具示例

    这篇文章主要介绍了Python实现的文本对比报告生成工具,涉及Python基于difflib模块实现对文本内容进行对比的相关操作技巧,需要的朋友可以参考下
    2018-05-05
  • 使用Python-OpenCV消除图像中孤立的小区域操作

    使用Python-OpenCV消除图像中孤立的小区域操作

    这篇文章主要介绍了使用Python-OpenCV消除图像中孤立的小区域操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-07-07
  • PYTHON发送邮件YAGMAIL的简单实现解析

    PYTHON发送邮件YAGMAIL的简单实现解析

    这篇文章主要介绍了PYTHON发送邮件YAGMAIL的简单实现解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-10-10
  • 详细介绍python类及类的用法

    详细介绍python类及类的用法

    前面我们介绍了类的创建及面向对象的三大特性.本篇将详细介绍Python 类的成员,成员修饰符,类的特殊成员.需要的朋友可以参考下
    2021-05-05
  • Python基础学习函数+模块+类

    Python基础学习函数+模块+类

    这篇文章主要介绍了Python基础学习函数+模块+类,这是基础学习的第三篇内容,小编已把前两篇链接放在下面,需要学习的同学可以参考一下
    2022-05-05
  • Python 通过pip安装Django详细介绍

    Python 通过pip安装Django详细介绍

    这篇文章主要介绍了Python 通过pip安装Django详细介绍的相关资料,需要的朋友可以参考下
    2017-04-04

最新评论