大数据分析与应用实验任务九

本文介绍: 进一步熟悉pyspark 程序运行方式；熟练掌握 py s a pr kRDD基本操作相关的方法、函数，解决基本问题。

进入 pyspark 实验环境，打开命令行窗口，输入 pyspark，完成下列任务：

在实验环境中自行选择路径新建以自己姓名拼音命名的文件夹，后续代码中涉及的文件请保存到该文件夹下（需要时文件夹中可以创建新的文件夹）。

listlzy=["Hadoop","Spark","Hive","Darcy"]
rddlzy=sc.parallelize(listlzy)
print(rddlzy.count())#行动操作，触发一次真正从头到尾的计算
print(','.join(rddlzy.collect()))#行动操作，触发一次真正从头到尾的计算

一般而言，使用 cache()方法时，会调用 p e rs i s t(MEMORY_ONLY)。针对上面的实例，增加持久化语句以后的执行过程如下：

listlzy=["Hadoop","Spark","Hive","Darcy"]
rdd=sc.parallelize(listlzy)
rdd.cache()#会调用persist(MEMORY_ONLY)，但是，语句执行到这里，并不会缓存rdd，因为这时rdd还没有被计算生成
print(rdd.count())#第一次行动操作，触发一次真正从头到尾的计算，这时上面的rdd.cache()才会被执行，把这个rdd放到缓存中
print(','.join(rdd.collect()))#第二次行动操作，不需要触发从头到尾的计算，只需要重复使用上面缓存中的rdd

datalzy=sc.parallelize([1,2,3,4,5],2)
len(datalzy.glom().collect())#显示datalzy这个RDD的分区数量
rdd = datalzy.repartition(1) #对 data 这个 RDD 进行重新分区
len(rdd.glom().collect()) #显示 rdd 这个 RDD 的分区数量

cd /root/Desktop/luozhongye
python3 TestPartitioner.py

cd /root/Desktop/luozhongye
spark-submit TestPartitioner.py

textFile = sc.textFile("file:///root/Desktop/luozhongye/wordlzy.txt") 
textFile.saveAsTextFile("file:///root/Desktop/luozhongye/writeback")

Hadoop is good
Spark is fast
Spark is better
luozhongye is handsome

textFile.first()

textFile = sc.textFile("file:///root/Desktop/luozhongye/wordcount/word123.txt")

textFile = sc.textFile("file:///root/Desktop/luozhongye/wordlzy.txt") 
textFile.saveAsTextFile("file:///root/Desktop/luozhongye/writeback")

cd /root/Desktop/luozhongye/writeback
ls

1
45
25

#!/usr/bin/env python3 
from pyspark import SparkConf, SparkContext

index = 0


def getindex():
	global index
	index += 1
	return index


def main():
	conf = SparkConf().setMaster("local[1]").setAppName("FileSort")
	sc = SparkContext(conf=conf)
	lines = sc.textFile("file:///root/Desktop/luozhongye/file*.txt")
	index = 0
	result1 = lines.filter(lambda line: (len(line.strip()) > 0))
	result2 = result1.map(lambda x: (int(x.strip()), ""))
	result3 = result2.repartition(1)
	result4 = result3.sortByKey(True)
	result5 = result4.map(lambda x: x[0])
	result6 = result5.map(lambda x: (getindex(), x))
	result6.foreach(print)
	result6.saveAsTextFile("file:///root/Desktop/luozhongye/sortresult")
    
    
if __name__ == '__main__':
		main()

小罗 110
小红 107
小新 100
小丽 99

小罗 95 
小红 81 
小新 82
小丽 76

小罗 65 
小红 71 
小新 61 
小丽 66

小罗 100
小红 103
小新 94
小丽 110

from pyspark import SparkConf, SparkContext

# 初始化Spark配置和上下文
conf = SparkConf().setAppName("AverageScore")
sc = SparkContext(conf=conf)

# 读取数学成绩文件
math_rdd = sc.textFile("数学成绩.txt").map(lambda x: (x.split()[0], int(x.split()[1])))

# 读取英语成绩文件
english_rdd = sc.textFile("英语成绩.txt").map(lambda x: (x.split()[0], int(x.split()[1])))

# 读取政治成绩文件
politics_rdd = sc.textFile("政治成绩.txt").map(lambda x: (x.split()[0], int(x.split()[1])))

# 读取408成绩文件
computer_rdd = sc.textFile("408成绩.txt").map(lambda x: (x.split()[0], int(x.split()[1])))

# 合并所有成绩数据
all_scores_rdd = math_rdd.union(english_rdd).union(politics_rdd).union(computer_rdd)

# 计算每个学生的成绩总和和成绩数量
sum_count_rdd = all_scores_rdd.combineByKey(lambda value: (value, 1),
                                            lambda acc, value: (acc[0] + value, acc[1] + 1),
                                            lambda acc1, acc2: (acc1[0] + acc2[0], acc1[1] + acc2[1]))

# 计算平均成绩
average_scores_rdd = sum_count_rdd.mapValues(lambda x: x[0] / x[1])

# 输出到新文件
average_scores_rdd.saveAsTextFile("平均成绩")

# 关闭Spark上下文
sc.stop()