Flink实时数仓同步：快照表实战详解

本文介绍: 在大数据领域，初始阶段业务数据通常被存储于关系型数据库，如MySQL。然而，为满足日常分析和报表等需求，大数据平台采用多种同步方式，以适应这些业务数据的不同存储需求。这些同步存储方式包括离线仓库和实时仓库等，选择取决于业务需求和数据特性。一项常见需求是，业务使用人员需要大数据分析平台中查看历史某一天的表数据，示例如下：

在大数据领域，初始阶段业务数据通常被存储于关系型数据库，如MySQL。然而，为满足日常分析和报表等需求，大数据平台采用多种同步方式，以适应这些业务数据的不同存储需求。这些同步存储方式包括离线仓库和实时仓库等，选择取决于业务需求和数据特性。

一项常见需求是，业务使用人员需要大数据分析平台中查看历史某一天的表数据，示例如下：

id	name	phone	gender	create_time	update_time
1	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00
2	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00
3	tom	333	男	2023-06-01 13:00:00	2023-06-01 13:00:00

id	name	phone	gender	create_time	update_time
1	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00
2	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00
3	tom	444	男	2023-06-01 13:00:00	2023-06-02 09:00:00
4	tony	555	男	2023-06-02 10:00:00	2023-06-02 10:00:00

id	name	phone	gender	create_time	update_time
1	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00
2	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00
3	tom	333	男	2023-06-01 13:00:00	2023-06-01 13:00:00

看到这里，有些同学可能会疑惑为何不采用离线数仓中的快照表，而要选择使用 Flink 实时同步的方式。确实，从需求层面看，离线数仓的快照表似乎是一种合理的选择。然而，我们需要注意离线数仓通常采用凌晨 T+1 执行 SQL 的方式将业务数据筛选后同步至下游，这种操作适用于对业务数据精确度要求不高的场景。

对于对数据精确度要求较高的需求，采用 T+1 的同步方式可能会导致数据不一致的问题。详细的问题分析和解决方案可以参考我另一篇文章：深入数仓离线数据同步：问题分析与优化措施。

那么对于对数据精确度要求较高的场景，我们可以选择实时同步的方式来实现。这是因为实时同步通过读取 binlog 日志，能够获取业务数据的完整变更历史。与离线数仓中的 T+1 执行 SQL 不同，实时同步能够更及时地捕获和应用数据变更，确保数据的高一致性和精确度。

在实时同步领域，要实现背景中的需求通常有两种常见的解决方式：

CREATE TABLE `example_user_snapshot`
(
    `id` largeint(40) NOT NULL COMMENT '用户id',
    `dt` date NULL COMMENT '流水日期',
    `name` varchar(50) NOT NULL COMMENT '用户昵称',
    `phone` largeint(40) NULL COMMENT '手机号',
    `gender` varchar(5) NULL COMMENT '用户性别',
    `create_time` datetime NULL COMMENT '用户注册时间',
    `update_time` datetime NULL COMMENT '用户更新时间'
) ENGINE=OLAP
UNIQUE KEY(`id`, `dt`)
COMMENT '用户流水表'
PARTITION BY RANGE(dt)()
DISTRIBUTED BY HASH(id) BUCKETS 8
PROPERTIES
(
    "dynamic_partition.enable" = "true",
    "dynamic_partition.time_unit" = "DAY",
    "dynamic_partition.start" = "-90",
    "dynamic_partition.end" = "3",
    "dynamic_partition.prefix" = "p",
    "dynamic_partition.buckets" = "8"
);

import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import com.ververica.cdc.debezium.JsonDebeziumDeserializationSchema;
import com.ververica.cdc.connectors.mysql.source.MySqlSource;

public class MySqlSourceExample {
  public static void main(String[] args) throws Exception {
    MySqlSource<String> mySqlSource = MySqlSource.<String>builder()
        .hostname("yourHostname")
        .port(yourPort)
        .databaseList("yourDatabaseName") // 设置捕获的数据库， 如果需要同步整个数据库，请将 tableList 设置为 ".*".
        .tableList("yourDatabaseName.yourTableName") // 设置捕获的表
        .username("yourUsername")
        .password("yourPassword")
        .startupOptions(StartupOptions.timestamp(1685548800000L)) // 从2023-06-01零点处读取binlog
        .deserializer(new JsonDebeziumDeserializationSchema()) // 将 SourceRecord 转换为 JSON 字符串
        .build();

    StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

    // 设置 3s 的 checkpoint 间隔
    env.enableCheckpointing(3000);

    env
      .fromSource(mySqlSource, WatermarkStrategy.noWatermarks(), "MySQL Source")
      // 设置 source 节点的并行度为 4
      .setParallelism(4)
      .print().setParallelism(1); // 设置 sink 节点并行度为 1 

    env.execute("Print MySQL Snapshot + Binlog");
  }
}

id	name	phone	gender	create_time	update_time
1	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00
2	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00
3	tom	333	男	2023-06-01 13:00:00	2023-06-01 13:00:00

{
	"before": null,
	"after": {		 # 实际数据
		"id": 1,
		"name": "jack",
		"phone": "111",
		"gender": "男",
		"create_time": "2023-06-01T05:00:00Z",  # 该日期是UTC时间,只需增加8小时即可转化为北京时间
		"update_time": "2023-06-01T05:00:00Z"	# 该日期是UTC时间,只需增加8小时即可转化为北京时间
	},
	"source": {		 # 元数据
		"version": "1.6.4.Final",
		"connector": "mysql",
		"name": "mysql_binlog_source",
		"ts_ms": 0,
		"snapshot": "false",
		"db": "yushu_dds",
		"sequence": null,
		"table": "user",
		"server_id": 0,
		"gtid": null,
		"file": "",
		"pos": 0,
		"row": 0,
		"thread": null,
		"query": null
	},
	"op": "r",  	 # 记录每条数据的操作类型[重要]
	"ts_ms": 1705471382867,
	"transaction": null
}

INSERT INTO example_user_snapshot (id, dt, name, phone, gender, create_time, update_time)
VALUES
    (1, '2023-06-01', 'jack', 111, '男', '2023-06-01 13:00:00', '2023-06-01 13:00:00'),
    (2, '2023-06-01', 'jason', 222, '男', '2023-06-01 13:00:00', '2023-06-01 13:00:00'),
    (3, '2023-06-01', 'tom', 333, '男', '2023-06-01 13:00:00', '2023-06-01 13:00:00');

id	dt	name	phone	gender	create_time	update_time
1	2023-06-01	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00
2	2023-06-01	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00
3	2023-06-01	tom	333	男	2023-06-01 13:00:00	2023-06-01 13:00:00

id	update_time	dt	create_time	name	phone	gender	op	before	binlog
NULL	NULL	NULL	NULL	NULL	NULL	NULL	NULL	NULL	NULL

id	name	phone	gender	create_time	update_time
1	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00
2	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00
3	tom	444	男	2023-06-01 13:00:00	2023-06-02 09:00:00
4	tony	555	男	2023-06-02 10:00:00	2023-06-02 10:00:00

# 新增tony变更数据如下
{
	"before": null,
	"after": {
		"id": 4,
		"name": "tony",
		"phone": "666",
		"gender": "男",
		"create_time": "2023-06-02T02:00:00Z",
		"update_time": "2023-06-02T02:00:00Z"
	},
	"source": {
		# 元数据信息忽略
	},
	"op": "c", # 操作类型
	"ts_ms": 1706768344113,
	"transaction": null
}
# tom手机号333->444变更数据如下
{
	"before": {
		"id": 3,
		"name": "tom",
		"phone": "333",
		"gender": "男",
		"create_time": "2023-06-01T05:00:00Z",
		"update_time": "2023-06-01T05:00:00Z"
	},
	"after": {
		"id": 3,
		"name": "tom",
		"phone": "444",
		"gender": "男",
		"create_time": "2023-06-01T05:00:00Z",
		"update_time": "2023-06-01T23:00:00Z"
	},
	"source": {
		# 元数据信息忽略
	},
	"op": "u", # 操作类型
	"ts_ms": 1706768454904,
	"transaction": null
}

id	update_time	dt	create_time	name	phone	gender	op	before	binlog
4	2023-06-02 10:00:00	2023-06-02	2023-06-02 10:00:00	tony	555	男	c	NULL	{“before”:null,“after”:{“id”:4,“name”:“tony”,“phone”:“666”,“gender”:“男”,“create_time”:“2023-06-02T02:00:00Z”,“update_time”:“2023-06-02T02:00:00Z”},“source”:{“version”:“1.6.4.Final”,“connector”:“mysql”,“name”:“mysql_binlog_source”,“ts_ms”:1706768344000,“snapshot”:“false”,“db”:“yushu_dds”,“sequence”:null,“table”:“user”,“server_id”:2307031958,“gtid”:“71221bfd-56e8-11ee-8275-fa163e4ecceb:33719321”,“file”:“3509-binlog.000191”,“pos”:643757739,“row”:0,“thread”:null,“query”:null},“op”:“c”,“ts_ms”:1706768344113,“transaction”:null}
3	2023-06-02 08:00:00	2023-06-02	2023-06-02 13:00:00	tom	444	男	u	{“id”:3,“name”:“tom”,“phone”:“333”,“gender”:“男”,“create_time”:“2023-06-01T05:00:00Z”,“update_time”:“2023-06-01T05:00:00Z”}	{“before”:{“id”:3,“name”:“tom”,“phone”:“333”,“gender”:“男”,“create_time”:“2023-06-01T05:00:00Z”,“update_time”:“2023-06-01T05:00:00Z”},“after”:{“id”:3,“name”:“tom”,“phone”:“444”,“gender”:“男”,“create_time”:“2023-06-01T05:00:00Z”,“update_time”:“2023-06-01T23:00:00Z”},“source”:{“version”:“1.6.4.Final”,“connector”:“mysql”,“name”:“mysql_binlog_source”,“ts_ms”:1706768454000,“snapshot”:“false”,“db”:“yushu_dds”,“sequence”:null,“table”:“user”,“server_id”:2307031958,“gtid”:“71221bfd-56e8-11ee-8275-fa163e4ecceb:33719761”,“file”:“3509-binlog.000191”,“pos”:692873739,“row”:0,“thread”:null,“query”:null},“op”:“u”,“ts_ms”:1706768454904,“transaction”:null}

id	dt	name	phone	gender	create_time	update_time
1	2023-06-01	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00
2	2023-06-01	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00
3	2023-06-01	tom	333	男	2023-06-01 13:00:00	2023-06-01 13:00:00

id	name	phone	gender	create_time	update_time
1	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00
2	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00
3	tom	444	男	2023-06-01 13:00:00	2023-06-02 09:00:00
4	tony	555	男	2023-06-02 10:00:00	2023-06-02 10:00:00

INSERT INTO example_user_snapshot (id, dt, name, phone, gender, create_time, update_time)
SELECT
    id,
    '2023-06-02' as dt, -- 通过固定dt字段值从而写入快照表p20230602分区中
    name,
    phone,
    gender,
    create_time,
    update_time
FROM (
         SELECT
             snap.id,
             snap.name,
             snap.phone,
             snap.gender,
             snap.create_time,
             snap.update_time
         FROM example_user_snapshot PARTITION p20230601 snap
    LEFT JOIN example_user_stream PARTITION p20230602 stream ON snap.id = stream.id
         WHERE stream.id IS NULL
         UNION
         SELECT
             id,
             name,
             phone,
             gender,
             create_time,
             update_time
         FROM (
             SELECT
             id,
             name,
             phone,
             gender,
             create_time,
             update_time,
			 -- 使用窗口函数的目的是处理流水表中可能存在多条相同id的记录，例如tom在06-02日更改多次手机号则会有多条相同id的数据，故此窗口函数用于确保选择每个id对应的update_time最大的记录；如果流水表设计的unique key = (id) 则不会出现重复情况无需此处的窗口函数。
             ROW_NUMBER() OVER (PARTITION BY id ORDER BY update_time DESC) AS row_num 
             FROM example_user_stream PARTITION p20230602
             ) ranked
         WHERE row_num = 1
     ) AS temp;

id	dt	name	phone	gender	create_time	update_time
1	2024-02-02	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00
2	2024-02-02	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00
3	2024-02-02	tom	333	男	2023-06-01 13:00:00	2023-06-01 13:00:00
1	2024-02-03	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00
2	2024-02-03	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00
3	2024-02-03	tom	555	男	2023-06-02 13:00:00	2023-06-02 09:00:00
4	2024-02-03	tony	555	男	2023-06-02 10:00:00	2023-06-02 10:00:00

SELECT * FROM example_user_snapshot PARTITION p20230602;

1	2024-02-03	jack	111	男	2023-06-01 13:00:00	2023-06-01 13:00:00
2	2024-02-03	jason	222	男	2023-06-01 13:00:00	2023-06-01 13:00:00
3	2024-02-03	tom	555	男	2023-06-02 13:00:00	2023-06-02 09:00:00
4	2024-02-03	tony	555	男	2023-06-02 10:00:00	2023-06-02 10:00:00

需要注意的是如果在合并阶段时Flink程序挂掉，重启后该如何处理？笔者建议在Flink程序中采用有状态的计算，即Rich functions 富函数中的ValueState，用于记录当前合并阶段是否成功，如下：

javaCopy codeimport org.apache.flink.api.common.functions.RichMapFunction;
import org.apache.flink.api.common.state.StateTtlConfig;
import org.apache.flink.api.common.state.ValueState;
import org.apache.flink.api.common.state.ValueStateDescriptor;
import org.apache.flink.api.common.time.Time;
import org.apache.flink.configuration.Configuration;

public class TestMapFunction extends RichMapFunction<Tuple2<String, Integer>, Tuple2<String, Integer>>  {
    // state 用于存放合并后的分区，例如: state=p20230601
    private transient ValueState<String> state;

    @Override
    public Tuple2<String, Integer> map(Tuple2<String, Integer> in) throws Exception {
        // 业务逻辑
    }

    public void open(Configuration parameters) throws Exception {
        // 初始化 state
    }
}

通过这种方式，即便Flink在同步过程中宕掉，只要根据checkpoint重启后便可检测到上一个分区任务失败，即state != 20230602，从而再次触发合并阶段！