新一代数据湖存储技术Apache Paimon入门Demo

本文介绍: 新一代数据湖存储技术Ap ac he Pai m on（Flink Table St o re）入门Demo，本文给出了一些简单的flink–paimon 样例（example），可供快速学习上手（文中所有代码均已跑通）。

        &lt;dependency&gt;
            &lt;groupId&gt;org.apache.paimon</groupId&gt;
            <artifactId&gt;paimon-flink-1.14</artifactId&gt;
            <version&gt;0.4-SNAPSHOT</version>
        </dependency>

import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.table.api.TableEnvironment;
import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;

/**
 * @Author: YK.Leo
 * @Date: 2023-05-14 15:12
 * @Version: 1.0
 */

// Succeed at local ！！！
public class OfficeDemoV1 {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        env.setParallelism(1);
        env.enableCheckpointing(10000l);
        env.getCheckpointConfig().setCheckpointStorage("file:/D:/tmp/paimon/");

        TableEnvironment tableEnv = StreamTableEnvironment.create(env);

        // 0. Create a Catalog and a Table
        tableEnv.executeSql("CREATE CATALOG my_catalog_api WITH (n" +
                "    'type'='paimon',n" +                           // todo: !!!
                "    'warehouse'='file:///D:/tmp/paimon'n" +
                ")");

        tableEnv.executeSql("USE CATALOG my_catalog_api");

        tableEnv.executeSql("CREATE TABLE IF NOT EXISTS word_count_api (n" +
                "    word STRING PRIMARY KEY NOT ENFORCED,n" +
                "    cnt BIGINTn" +
                ")");

        // 1. Write Data
        tableEnv.executeSql("CREATE TEMPORARY TABLE IF NOT EXISTS word_table_api (n" +
                "    word STRINGn" +
                ") WITH (n" +
                "    'connector' = 'datagen',n" +
                "    'fields.word.length' = '1'n" +
                ")");

        // tableEnv.executeSql("SET 'execution.checkpointing.interval' = '10 s'");

        tableEnv.executeSql("INSERT INTO word_count_api SELECT word, COUNT(*) FROM word_table_api GROUP BY word");

        env.execute();
    }
}

package com.study.flink.table.paimon.demo;

import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.table.api.StatementSet;
import org.apache.flink.table.api.TableEnvironment;
import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;

/**
 * @Author: YK.Leo
 * @Date: 2023-05-17 11:11
 * @Version: 1.0
 */

// succeed at local ！！！
public class OfficeStreamsWriteV2 {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        env.setParallelism(1);
        env.enableCheckpointing(10000L);
        env.getCheckpointConfig().setCheckpointStorage("file:/D:/tmp/paimon/");

        TableEnvironment tableEnv = StreamTableEnvironment.create(env);


        // 0. Create a Catalog and a Table
        tableEnv.executeSql("CREATE CATALOG my_catalog_local WITH (n" +
                "    'type'='paimon',n" +                           // todo: !!!
                "    'warehouse'='file:///D:/tmp/paimon'n" +
                ")");

        tableEnv.executeSql("USE CATALOG my_catalog_local");

        tableEnv.executeSql("CREATE DATABASE IF NOT EXISTS my_catalog_local.local_db");
        tableEnv.executeSql("USE local_db");

        // drop tbl
        tableEnv.executeSql("DROP TABLE IF EXISTS paimon_tbl_streams");
        tableEnv.executeSql("CREATE TABLE IF NOT EXISTS paimon_tbl_streams(n"
                + " uuid bigint,n"
                + " name VARCHAR(3),n"
                + " age int,n"
                + " ts TIMESTAMP(3),n"
                + " dt VARCHAR(10), n"
                + " PRIMARY KEY (dt, uuid) NOT ENFORCED n"
                + ") PARTITIONED BY (dt) n"
                + " WITH (n" +
                "    'merge-engine' = 'partial-update',n" +
                "    'changelog-producer' = 'full-compaction', n" +
                "    'file.format' = 'orc', n" +
                "    'scan.mode' = 'compacted-full', n" +
                "    'bucket' = '5', n" +
                "    'sink.parallelism' = '5', n" +
                "    'sequence.field' = 'ts' n" +   // todo, to check
                ")"
        );

        // datagen ====================================================================
        tableEnv.executeSql("CREATE TEMPORARY TABLE IF NOT EXISTS source_A (n" +
                " uuid bigint PRIMARY KEY NOT ENFORCED,n" +
                " `name` VARCHAR(3)," +
                " _ts1 TIMESTAMP(3)n" +
                ") WITH (n" +
                " 'connector' = 'datagen', n" +
                " 'fields.uuid.kind'='sequence',n" +
                " 'fields.uuid.start'='0', n" +
                " 'fields.uuid.end'='1000000', n" +
                " 'rows-per-second' = '1' n" +
                ")");
        tableEnv.executeSql("CREATE TEMPORARY TABLE IF NOT EXISTS source_B (n" +
                " uuid bigint PRIMARY KEY NOT ENFORCED,n" +
                " `age` int," +
                " _ts2 TIMESTAMP(3)n" +
                ") WITH (n" +
                " 'connector' = 'datagen', n" +
                " 'fields.uuid.kind'='sequence',n" +
                " 'fields.uuid.start'='0', n" +
                " 'fields.uuid.end'='1000000', n" +
                " 'rows-per-second' = '1' n" +
                ")");

        //
        //tableEnv.executeSql("insert into paimon_tbl_streams(uuid, name, _ts1) select uuid, concat(name,'_A') as name, _ts1 from source_A");
        //tableEnv.executeSql("insert into paimon_tbl_streams(uuid, age, _ts1) select uuid, concat(age,'_B') as age, _ts1 from source_B");
        StatementSet statementSet = tableEnv.createStatementSet();
        statementSet
                .addInsertSql("insert into paimon_tbl_streams(uuid, name, ts, dt) select uuid, name, _ts1 as ts, date_format(_ts1,'yyyy-MM-dd') as dt from source_A")
                .addInsertSql("insert into paimon_tbl_streams(uuid, age, dt) select uuid, age, date_format(_ts2,'yyyy-MM-dd') as dt from source_B")
                ;

        statementSet.execute();
        // env.execute();
    }
}

package com.study.flink.table.paimon.demo;

import org.apache.flink.api.common.functions.FilterFunction;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.table.api.Schema;
import org.apache.flink.table.api.Table;
import org.apache.flink.table.api.TableEnvironment;
import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;
import org.apache.flink.table.connector.ChangelogMode;
import org.apache.flink.types.Row;
import org.apache.flink.types.RowKind;
import org.apache.logging.log4j.LogManager;
import org.apache.logging.log4j.Logger;

/**
 * @Author: YK.Leo
 * @Date: 2023-05-15 18:50
 * @Version: 1.0
 */

// 流读单表OK！
public class OfficeStreamReadV1  {

    public static final Logger LOGGER = LogManager.getLogger(OfficeStreamReadV1.class);

    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        env.setParallelism(1);
        env.enableCheckpointing(10000L);
        env.getCheckpointConfig().setCheckpointStorage("file:/D:/tmp/paimon/");

        TableEnvironment tableEnv = StreamTableEnvironment.create(env);


        // 0. Create a Catalog and a Table
        tableEnv.executeSql("CREATE CATALOG my_catalog_local WITH (n" +
                "    'type'='paimon',n" +                           // todo: !!!
                "    'warehouse'='file:///D:/tmp/paimon'n" +
                ")");

        tableEnv.executeSql("USE CATALOG my_catalog_local");

        tableEnv.executeSql("CREATE DATABASE IF NOT EXISTS my_catalog_local.local_db");
        tableEnv.executeSql("USE local_db");

        // 不需要再次创建表

        // convert to DataStream
        // Table table = tableEnv.sqlQuery("SELECT * FROM paimon_tbl_streams");
        Table table = tableEnv.sqlQuery("SELECT * FROM paimon_tbl_streams WHERE name is not null and age is not null");
        // DataStream<Row> dataStream = ((StreamTableEnvironment) tableEnv).toChangelogStream(table);
        // todo : doesn't support consuming update and delete changes which is produced by node TableSourceScan
        // DataStream<Row> dataStream = ((StreamTableEnvironment) tableEnv).toDataStream(table);
        // 剔除 -U 数据（即：更新前的数据不需要重新发送，剔除）！！！
        DataStream<Row> dataStream = ((StreamTableEnvironment) tableEnv)
                .toChangelogStream(table, Schema.newBuilder().primaryKey("dt","uuid").build(), ChangelogMode.upsert())
                .filter(new FilterFunction<Row>() {
                    @Override
                    public boolean filter(Row row) throws Exception {
                        boolean isNoteUpdateBefore = !(row.getKind().equals(RowKind.UPDATE_BEFORE));
                        if (!isNoteUpdateBefore) {
                            LOGGER.info("UPDATE_BEFORE: " + row.toString());
                        }
                        return isNoteUpdateBefore;
                    }
                })
                ;

        // use this datastream
        dataStream.executeAndCollect().forEachRemaining(System.out::println);

        env.execute();
    }
}

package com.study.flink.table.paimon.multi;

import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.table.api.StatementSet;
import org.apache.flink.table.api.TableEnvironment;
import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;

/**
 * @Author: YK.Leo
 * @Date: 2023-05-18 10:17
 * @Version: 1.0
 */

// Succeed as local ！！！
// 而且不会产生conflict，跑5分钟没有任何异常(公司跑几天无异常)！ 数据也可以在另一个job流读！
public class MultiStreamsUnionWriteV1 {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);
        env.enableCheckpointing(10*1000L);
        env.getCheckpointConfig().setCheckpointStorage("file:/D:/tmp/paimon/");
        TableEnvironment tableEnv = StreamTableEnvironment.create(env);

        // 0. Create a Catalog and a Table
        tableEnv.executeSql("CREATE CATALOG my_catalog_local WITH (n" +
                "    'type'='paimon',n" +                           // todo: !!!
                "    'warehouse'='file:///D:/tmp/paimon'n" +
                ")");
        tableEnv.executeSql("USE CATALOG my_catalog_local");

        tableEnv.executeSql("CREATE DATABASE IF NOT EXISTS my_catalog_local.local_db");
        tableEnv.executeSql("USE local_db");

        // drop &amp; create tbl
        tableEnv.executeSql("DROP TABLE IF EXISTS paimon_tbl_streams");
        tableEnv.executeSql("CREATE TABLE IF NOT EXISTS paimon_tbl_streams(n"
                + " uuid bigint,n"
                + " name VARCHAR(3),n"
                + " age int,n"
                + " ts TIMESTAMP(3),n"
                + " dt VARCHAR(10), n"
                + " PRIMARY KEY (dt, uuid) NOT ENFORCED n"
                + ") PARTITIONED BY (dt) n"
                + " WITH (n" +
                "    'merge-engine' = 'partial-update',n" +
                "    'changelog-producer' = 'full-compaction', n" +
                "    'file.format' = 'orc', n" +
                "    'scan.mode' = 'compacted-full', n" +
                "    'bucket' = '5', n" +
                "    'sink.parallelism' = '5', n" +
                // "    'write_only' = 'true', n" +
                "    'sequence.field' = 'ts' n" +   // todo, to check
                ")"
        );

        // datagen ====================================================================
        tableEnv.executeSql("CREATE TEMPORARY TABLE IF NOT EXISTS source_A (n" +
                " uuid bigint PRIMARY KEY NOT ENFORCED,n" +
                " `name` VARCHAR(3)," +
                " _ts1 TIMESTAMP(3)n" +
                ") WITH (n" +
                " 'connector' = 'datagen', n" +
                " 'fields.uuid.kind'='sequence',n" +
                " 'fields.uuid.start'='0', n" +
                " 'fields.uuid.end'='1000000', n" +
                " 'rows-per-second' = '1' n" +
                ")");
        tableEnv.executeSql("CREATE TEMPORARY TABLE IF NOT EXISTS source_B (n" +
                " uuid bigint PRIMARY KEY NOT ENFORCED,n" +
                " `age` int," +
                " _ts2 TIMESTAMP(3)n" +
                ") WITH (n" +
                " 'connector' = 'datagen', n" +
                " 'fields.uuid.kind'='sequence',n" +
                " 'fields.uuid.start'='0', n" +
                " 'fields.uuid.end'='1000000', n" +
                " 'rows-per-second' = '1' n" +
                ")");

        //
        StatementSet statementSet = tableEnv.createStatementSet();
        String sqlText = "INSERT INTO paimon_tbl_streams(uuid, name, age, ts, dt) n" +
                "select uuid, name, cast(null as int) as age, _ts1 as ts, date_format(_ts1,'yyyy-MM-dd') as dt from source_A n" +
                "UNION ALL n" +
                "select uuid, cast(null as string) as name, age, _ts2 as ts, date_format(_ts2,'yyyy-MM-dd') as dt from source_B"
                ;
        statementSet.addInsertSql(sqlText);

        statementSet.execute();
    }
}