分布式场景怎么Join_代码007(未授权)

本文介绍: 举个例子，有一张非常小的表A，还有一张按照ID分片的表B，我们可以在每一个物理库中复制一份表A，这样我们的Join操作就可以直接下推到每一个数据库操作了。在ShardingSphere中，这种场景类似于绑定表的定义，如果两张表的算法相同，可以直接配置绑定表的关系，进行相同算法的连接查询，避免复杂的笛卡尔积。在分布式环境中，Sort-Merge Join首先在每个节点上对数据进行局部排序，然后将排序后的数据合并起来，最后在合并的数据上执行联接操作。对于已经排序的数据集或数据分布均匀的情况，这种方法非常有效。

最近在阅读查询优化器的论文，发现System R中对于Join操作的定义一般分为了两种，即嵌套循环、排序-合并联接。

考虑到我的领域是在处理分库分表或者其他的分区模式，这让我开始不由得联想我们怎么在分布式场景应用这个Join逻辑，对于两个不同库里面的不同表我们是没有办法直接进行Join操作的。查阅资料后发现原来早有定义，即分布式联接算法。

跨界点处理数据即分布式联接算法，常见的有四种模型：Shuffle Join（洗牌联接）、Broadcast Join（广播联接）、MapReduce Join（MapReduce联接）、Sort-Merge Join（排序-合并联接）。

接下来将进行逐一了解与分析，以便后续开发的应用。

先上原理解释：

可能解释完还是有点模糊，举个例子，有两张表，分别以id字段进行分库操作，且哈希算法相同（为了简单，这里只介绍分库场景，分库分表同理。算法有很多种，这里举例是hash算法），那么这两张表的分片或许可以在同一个物理库中，这样我们不需要做大表维度的处理，我们可以直接下推Join操作到对应的物理库操作即可。

SELECT orders.order_id, orders.date, customers.name
FROM orders
JOIN customers ON orders.customer_id = customers.customer_id;

SELECT customer_id, order_id, date FROM orders;
SELECT customer_id, name FROM customers;

这个过程就是Map阶段，即读取orders和customers表的数据，并为每条记录输出键值对，键是customer_id，值是记录的其余部分。

SELECT orders.order_id, orders.date, customers.name
FROM orders
JOIN customers ON orders.customer_id = customers.customer_id;

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

join 排序操作

背景

分布式联接算法

Shuffle Join（洗牌联接）

Broadcast Join（广播联接）

MapReduce Join（MapReduce联接）

额外补充

Sort-Merge Join（排序-合并联接）

发表回复取消回复

背景