PySpark数据分析基础:核心数据集RDD常用函数操作一文详解(二)

本文介绍: PySpark 系列的专栏文章目前的话应该只会比Pand a s更多不会更少，可以用PySpark 实现的功能太多了，基本上Spark能实现的PySpark都能实现，而且能够实现兼容 python其他库，这就给了PySpark 极大的使用空间，能够结合大数据集群实现更高效更精确的大数据处理或者预测。如果能够将这些工具都使用的相当熟练的话，那必定是一名优秀的大数据工程师。故2023年这一年的整体学习重心都会集中在这门技术上，当然Pand a s以及Nump y的专栏都会更新。

前言

1.cartesian(笛卡尔积计算)

2.coalesce(缩减分区数)

3.cogroup(对Key聚合计算)

4.collect(结果返回列表List)

RDD.cartesian(other: pyspark.rdd.RDD[U]) → pyspark.rdd.RDD[Tuple[T, U]]

rdd = sc.parallelize([1, 2])
rdd.cartesian(rdd).collect()

[(1, 1), (1, 2), (2, 1), (2, 2)]

RDD.coalesce(numPartitions: int, shuffle: bool = False) → pyspark.rdd.RDD[T]

sc.parallelize([1, 2, 3, 4, 5], 3).glom().collect()

[[1], [2, 3], [4, 5]]

sc.parallelize([1, 2, 3, 4, 5], 3).coalesce(1).glom().collect()

RDD.cogroup(other: pyspark.rdd.RDD[Tuple[K, U]],
            numPartitions: Optional[int] = None) 
            → pyspark.rdd.RDD[Tuple[K, Tuple[pyspark.resultiterable.ResultIterable[V],
              pyspark.resultiterable.ResultIterable[U]]]]

x = sc.parallelize([("a", 1), ("b", 4)])
y = sc.parallelize([("a", 2)])
[(x, tuple(map(list, y))) for x, y in sorted(list(x.cogroup(y).collect()))]

[('a', ([1], [2])), ('b', ([4], []))]

RDD.collect() → List[T]

RDD.collectAsMap() → Dict[K, V]

m = sc.parallelize([(1, 2), (3, 4)]).collectAsMap()
m.keys()

dict_keys([1, 3])

RDD.combineByKey(createCombiner: Callable[[V], U], 
                 mergeValue: Callable[[U, V], U], 
                 mergeCombiners: Callable[[U, U], U], 
                 numPartitions: Optional[int] = None, 
                 partitionFunc: Callable[[K], int] = <function portable_hash&gt;)
                 →pyspark.rdd.RDD[Tuple[K, U]]

x = sc.parallelize([("a", 1), ("b", 1), ("a", 2)])
def to_list(a):
    return [a]
def append(a, b):
    a.append(b)
    return a
def extend(a, b):
    a.extend(b)
    return a
sorted(x.combineByKey(to_list, append, extend).collect())

[('a', [1, 2]), ('b', [1])]

RDD.count() → int

sc.parallelize([2, 3, 4]).count()

RDD.countApprox(timeout: int, confidence: float = 0.95) → int

rdd = sc.parallelize(range(1000), 10)
rdd.countApprox(1000, 1.0)

RDD.countApproxDistinct(relativeSD: float = 0.05) → int

n = sc.parallelize([i % 20 for i in range(1000)]).countApproxDistinct()
16 < n < 24

True

RDD.countByKey() → Dict[K, int]

rdd = sc.parallelize([("a", 1), ("b", 1), ("a", 1)])
sorted(rdd.countByKey().items())

[('a', 2), ('b', 1)]

RDD.countByValue() → Dict[K, int]

sorted(sc.parallelize([1, 2, 1, 2, 2], 2).countByValue().items())

RDD.distinct(numPartitions: Optional[int] = None) → pyspark.rdd.RDD[T]

sorted(sc.parallelize([1, 1, 2, 3]).distinct().collect())

[1, 2, 3]

RDD.filter(f: Callable[[T], bool]) → pyspark.rdd.RDD[T]

rdd = sc.parallelize([1, 2, 3, 4, 5])
rdd.filter(lambda x: x % 2 == 0).collect()

RDD.first() → T

sc.parallelize([2, 3, 4]).first()

RDD.flatMap(f: Callable[[T], Iterable[U]], preservesPartitioning: bool = False)

rdd = sc.parallelize([2, 3, 4])
sorted(rdd.flatMap(lambda x: range(1, x)).collect())

RDD.flatMapValues(f: Callable[[V], Iterable[U]]) → pyspark.rdd.RDD[Tuple[K, U]]

x = sc.parallelize([("a", ["x", "y", "z"]), ("b", ["p", "r"])])
def f(x): return x
x.flatMapValues(f).collect()

RDD.fold(zeroValue: T, op: Callable[[T, T], T]) → T

from operator import add
sc.parallelize([1, 2, 3, 4, 5]).fold(2, add)
#理解x,y: x，它代指的是返回值，而y是对rdd各元素的遍历。所以，x+y表示对num中数据进行累加

RDD.foldByKey(zeroValue: V, 
              func: Callable[[V, V], V],
              numPartitions: Optional[int] = None, 
              partitionFunc: Callable[[K], int] = <function portable_hash>) 
            → pyspark.rdd.RDD[Tuple[K, V]]

rdd = sc.parallelize([("a", 1), ("b", 1), ("a", 1)])
from operator import add
sorted(rdd.foldByKey(0, add).collect())

[('a', 2), ('b', 1)]

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

前言

1.ca rte sian(笛卡尔积计算)

2.coalesc e(缩减分区数)

3.co group(对Key聚合 计算)

4.collect(结果返回列表List)

5.co llectAsMap(作为字典返回)

6.combineByKey(Key聚合 计算 算子)

7.count(统计 元素)

8.countAppro x(统计 计数)

9.countApp roxDistinct(返回RDD中不同 元素的近似数量)

10.countByKey(计算 每个键的元素数)

11.countByValue(将此RDD中每个 唯一值的计数作为（value，count）对的字典返回)

12.distinct(返回包含此RDD中不同元素的新RDD)

13.filter( 返回仅包含满足条件的元素的新RDD)

14.first(返回此RDD中的第一个元素)

15.flatMap(逐个Map 展开返回)

16.flatMapValues(逐个Key Map展开)

17.fold(折叠函数)

18.foldByKey(通过Key折叠)

点关注，防走丢，如有纰漏之处，请留言指教，非常感谢

发表回复取消回复

1.cartesian(笛卡尔积计算)

2.coalesce(缩减分区数)

3.cogroup(对Key聚合计算)

4.collect(结果返回列表List)

5.collectAsMap(作为字典返回)

6.combineByKey(Key聚合计算算子)

7.count(统计元素)

8.countApprox(统计计数)

9.countApproxDistinct(返回RDD中不同元素的近似数量)

10.countByKey(计算每个键的元素数)

11.countByValue(将此RDD中每个唯一值的计数作为（value，count）对的字典返回)

12.distinct(返回包含此RDD中不同元素的新RDD)

13.filter( 返回仅包含满足条件的元素的新RDD)

14.first(返回此RDD中的第一个元素)

15.flatMap(逐个Map展开返回)

16.flatMapValues(逐个Key Map展开)

17.fold(折叠函数)

18.foldByKey(通过Key折叠)

点关注，防走丢，如有纰漏之处，请留言指教，非常感谢

相关文章

发表回复 取消回复

1.ca rte sian(笛卡尔积计算)

2.coalesc e(缩减分区数)

3.co group(对Key聚合计算)

5.co llectAsMap(作为字典返回)

8.countAppro x(统计计数)

9.countApp roxDistinct(返回RDD中不同元素的近似数量)

15.flatMap(逐个Map 展开返回)

发表回复取消回复