spark分布式解压工具_代码007(未授权)

本文介绍: spark解压缩工具，目前支持tar、gz、zip、bz2、7z压缩格式，默认解压到当前路下，也支持自定义的解压输出路径。另外支持多种提交模式，进行解压任务，可通过自定义配置文件，作为spark任务的资源设定。

spark解压缩工具，目前支持tar、gz、zip、bz2、7z压缩格式，默认解压到当前路下，也支持自定义的解压输出路径。另外支持多种提交模式，进行解压任务，可通过自定义配置文件，作为spark任务的资源设定

2.1 使用hadoop的FileSystem类，对tos文件的进行读取、查找、写入等操作
2.2 获取到tos文件或目录，对压缩文件进行解压，解压成字节数组，以流的方式写入tos文件系统
2.3 使用maven工具打包，单独生成一个spark配置文件(提交spark作业时进行资源的分配)，每次启动spark job时，会加载这个自定义配置文件
2.4 封装到shell脚本，通过sparktar命令执行解压

支持3种spark的提交模式，建议7z解压用yarn-client|cluster模式提交，主要会涉及到写磁盘的流程，避免把单节点磁盘打满的风险

	tar	zip	bz2	7z
本地local模式	支持	支持	支持	支持
yarn-client	支持	支持	支持	支持
yarn-cluster	支持	支持	支持	支持

a)默认直接解压到当前路径，不会覆盖原始压缩文件；
b)还可以指定解压输出路径

目前已在172.24.12.118机器配置好了，可通过 sparktar 命令来执行解压操作
sparktar -cluster tos://report/tmp/tar/ tos://report/tmptar/ tmp.produce.properties

# spark.driver内存
spark.driver.memory=1g

# spark.driver的核数
spark.driver.cores=2

# spark.executor的核数,官网推荐4~5个
spark.executor.cores=4

# spark.executor内存,大概1个yarn节点总内存/1个yarn节点的excuter数,具体还需要结合job的数据集以及划分并行度情况设定
spark.executor.memory=4g

# executor的个数
spark.executor.instances=4

# yarn.executor堆外内存
spark.yarn.executor.memoryOverhead=1g

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。