PySpark开发环境搭建常见问题及解决

本文介绍: 版本与Had oop 集群版本不匹配。，并配置了环境变量，但未将。目录中（重启电脑才能生效）各版本下载链接见文末附录。，配置环境变量，并将。

本文主要收录PySpark 开发环境搭建时常见的一些问题及解决方案，并收集一些相关资源

在这里插入图片描述

WARN Shell: Did not find winutils.exe: {}
java.io.FileNotFoundException: java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset.
......

原因1：缺少Had oop的Wi nd o ws 支持环境：hadoop.dll和winutils.exe

原因2：已经下载hadoop.dll和winutils.exe，并配置了环境变量，但未将hadoop.dll和winutils.exe文件拷贝到C:WindowsSystem32目录中（重启电脑才能生效）

解决：下载Hado op的Wi ndows 支持环境：hadoop.dll和winutils.exe，配置环境变量，并将hadoop.dll和winutils.exe文件拷贝到C:WindowsSystem32目录中，重启电脑

PS：hadoop.dll和winutils.exe各版本下载链接见文末附录

To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
23/12/05 14:50:09 ERROR SparkContext: Error initializing SparkContext.
org.apache.spark.SparkException: Invalid Spark URL: spark://HeartbeatReceiver@***
......

原因：主机名带了下划线_或点.导致

方式1：添加配置：spark.driver.host=localhost

主机名 127.0.0.1

然后添加配置：spark.driver.bindAddress=127.0.0.1

23/12/05 15:13:10 WARN NativeIO: NativeIO.getStat error (3): ϵͳ�Ҳ���ָ����·����
 -- file path: tmp/hive
23/12/05 15:13:21 WARN ProcfsMetricsGetter: Exception when trying to compute pagesize, as a result reporting of ProcessTree metrics is stopped
23/12/05 15:13:22 WARN metastore: set_ugi() not successful, Likely cause: new client talking to old server. Continuing without it.
org.apache.thrift.transport.TTransportException
......

解决：首先配置屏蔽：spark.executor.processTreeMetrics.enabled=false，然后尝试如下方式：

方式1：修改hdfs-site.xml

# 在集群服务器的hdfs-site.xml文件中添加跳过权限验证
# 注意修改配置前先停止集群，配置结束之后，重启集群即可。经测试只需要修改NameNode上的配置文件即可
<property>
    <name>dfs.permissions.enabled</name>
    <value>false</value>
</property>

方式2：修改hive-site.xml

# 新客户端与旧服务器通信，hive-site.xml与服务器不同步
# 在hive-site.xml中添加以下内容：
<property>
    <name>hive.metastore.event.db.notification.api.auth</name>
    <value>false</value>
</property>