本文介绍: spark解压缩工具,目前支持tar、gz、zip、bz2、7z压缩格式,默认解压到当前路下,也支持自定义的解压输出路径。另外支持多种提交模式,进行解压任务,可通过自定义配置文件,作为spark任务的资源设定。
spark分布式解压工具
一、目标
spark解压缩工具,目前支持tar、gz、zip、bz2、7z压缩格式,默认解压到当前路下,也支持自定义的解压输出路径。另外支持多种提交模式,进行解压任务,可通过自定义配置文件,作为spark任务的资源设定
二、详细设计
2.1 使用hadoop的FileSystem类,对tos文件的进行读取、查找、写入等操作
2.2 获取到tos文件或目录,对压缩文件进行解压,解压成字节数组,以流的方式写入tos文件系统
2.3 使用maven工具打包,单独生成一个spark配置文件(提交spark作业时进行资源的分配),每次启动spark job时,会加载这个自定义配置文件
2.4 封装到shell脚本,通过sparktar命令执行解压
三、操作说明
1.提交模式
支持3种spark的提交模式,建议7z解压用yarn-client|cluster模式提交,主要会涉及到写磁盘的流程,避免把单节点磁盘打满的风险
2.压缩输出路径支持2种方式
a)默认直接解压到当前路径,不会覆盖原始压缩文件;
b)还可以指定解压输出路径
3.操作命令及说明
3.1操作命令
目前已在172.24.12.118机器配置好了,可通过 sparktar 命令来执行解压操作
sparktar -cluster tos://report/tmp/tar/ tos://report/tmptar/ tmp.produce.properties
3.2命令说明
四、操作案例
4.1案例1
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。