阿里云 Flink 原理分析与应用：深入探索 MongoDB Schema Inference

本文介绍: 本文整理自阿里云 Flink 团队归源老师关于阿里云 Flink 原理分析与应用：深入探索 MongoDB Schema Inference 的研究。

MongoDB 是一种面向文档的非关系型数据库，支持半结构化数据存储；也是一种分布式的数据库，提供副本集和分片集两种集群部署模式，具有高可用和水平扩展的能力，比较适合大规模的数据存储。

MongoDB 使用了弱结构化的存储模式，支持灵活的数据结构和丰富的数据类型，适合 Json 文档、标签、快照、地理位置、内容存储等业务场景。它天然的分布式架构提供了开箱即用的分片机制和自动 rebalance 能力，适合大规模数据存储。另外， MongoDB 还提供了分布式网格文件存储的功能，即 GridFS，适合图片、音频、视频等大文件存储。

在这里插入图片描述

Flink CDC 是基于数据库的日志 CDC（Change Data Capture）技术，实现了全量和增量的一体化读取能力，借助 Flink 优秀的管道能力和丰富的上下游生态，支持实时捕获、加工多种数据的变更并输出到下游，MongoDB 也是支持的数据库之一，支持的主要特性包括：

社区 MongoDB CDC 使用了 MongoDB 3.6推出的 Change Streams特性，通过将 Change Streams 转换成 Flink Upsert changelog，实现了 MongoDB CDC TableSource。在 MongoDB 6.0 之前的版本中，默认不会提供变更前文档及被删除文档的数据，利用这些信息只能实现下图所示的 Upsert 语义。

{
  "unnested": "value",
  "nested": {
    "col1": 99,
    "col2": true
  }
}

列名	Flink SQL类型
unnested	STRING
nested	STRING

列名	Flink SQL类型
unnested	STRING
nested.col1	INT
nested.col2	BOOLEAN

{
  "_id": {
    "$oid": "100000000000000000000101"
  },
  "name": "Alice",
  "age": 10,
  "phone": {
    "mother": "111",
    "fatehr": "222"
  }
}

{
  "_id": {
    "$oid": "100000000000000000000102"
  },
  "name": "Bob",
  "age": 20,
  "phone": {
    "mother": "333",
    "fatehr": "444"
  }
  "address": ["Shanghai"],
  "desc": 1024
}

{
  "_id": {
    "$oid": "100000000000000000000103"
  },
  "name": "John",
  "age": 30,
  "phone": {
    "mother": "555",
    "fatehr": "666"
  }
  "address": ["Shanghai"],
  "desc": "test value"
}

列名	Flink SQL类型	备注
_id	STRING NOT NULL	主键字段
name	STRING
age	INT
phone	STRING
address	STRING
desc	STRING	类型合并为STRING

CREATE CATALOG <yourcatalogname> WITH(
  'type'='mongodb',
  'default-database'='<dbName>',
  'hosts'='<hosts>',
  'scheme'='<scheme>',
  'username'='<username>',
  'password'='<password>',
  'connection.options'='<connectionOptions>',
  'max.fetch.records'='100',
  'scan.flatten-nested-columns.enable'='<flattenNestedColumns>',
  'scan.primitive-as-string'='<primitiveAsString>'
);

CREATE TABLE IF NOT EXISTS `${target_table_name}`
WITH(...)
AS TABLE `${mongodb_catalog}`.`${db_name}`.`${collection_name}`
/*+ OPTIONS('scan.incremental.snapshot.enabled'='true') */;

BEGIN STATEMENT SET;

CREATE TABLE IF NOT EXISTS `some_catalog`.`some_database`.`some_table0`
AS TABLE `mongodb-catalog`.`database`.`collection0`
/*+ OPTIONS('scan.incremental.snapshot.enabled'='true') */;

CREATE TABLE IF NOT EXISTS `some_catalog`.`some_database`.`some_table1`
AS TABLE `mongodb-catalog`.`database`.`collection1`
/*+ OPTIONS('scan.incremental.snapshot.enabled'='true') */;

CREATE TABLE IF NOT EXISTS `some_catalog`.`some_database`.`some_table2`
AS TABLE `mongodb-catalog`.`database`.`collection2`
/*+ OPTIONS('scan.incremental.snapshot.enabled'='true') */;

END;

CREATE DATABASE IF NOT EXISTS `some_catalog`.`some_database` 
AS DATABASE `mongo-catalog`.`database` INCLUDING TABLE 'table-name'
/*+ OPTIONS('scan.incremental.snapshot.enabled'='true') */;