本文介绍: 有了这些功能,Python API 已经基本对齐了 Java 和 Scala API 中的大部分重要功能,用户已经可以使用 Python 语言完成大部分类型的 Flink 作业的开发。之前的流批集成强调统一的API和统一的计算框架。在这个版本中,如果上游子任务中的barrier在execution.checkpointing.aligned–checkpoint–timeout内无法发送到下游,Flink会先让上游子任务切换到UC,将barrier发送到下游,从而 减少背压下检查点超时的概率。
AApache Flink 继续快速发展,是 Apache 最活跃的社区之一。共有 240 多位贡献者热情参与 Flink 1.16,完成了 19 个 FLIP和 1100 多个问题,为社区带来了许多令人兴奋的功能。
Flink 已经是流计算领域的佼佼者。流批一体化的理念逐渐被大家所认可,并在越来越多的企业中成功落地。之前的流批集成强调统一的API和统一的计算框架。今年 Flink 在此基础上推出了 Streaming Warehouse,进一步升级了流批融合的概念:真正完成了流批计算和流批存储的融合,从而实现了流的实时性。-批量集成分析。
在 1.16 版本中,Flink 社区在对流和批处理方面都完成了很多改进:
(1)在批处理方面,完成了易用性、稳定性和性能方面的全方位提升。 1.16 是 Fink 批处理的里程碑版本,也是迈向成熟的重要一步。
1)易用性:引入 SQL 网关,与 HiveServer2 完全兼容。用户可以轻松提交 Flink SQL 作业和 Hive SQL 作业,同时也可以轻松接入原有的 Hive 生态。
2)功能:Flink SQL 用户支持通过 Join Hint 指定 Join 策略,避免不合理的执行计划;Hive SQL 的兼容性达到了 94%,用户可以以极低的成本完成从 Hive 到 Flink 的迁移。
1.理解流式仓库
2.批处理
2.1 SQL 网关
2.2 Hive 语法兼容
2.3 Join Hint
2.4 自适应哈希联接
2.5 批处理的预测执行
2.6 混合shuffle模式
2.7 Blocking shuffle 进一步改进
2.8 动态分区裁剪
3.流处理
3.1 广义增量检查点
3.2 RocksDB 重新缩放改进和性能测试
3.3 提升 State Backend 的监控体验和可用性
3.4 支持透支缓冲
3.5 对齐检查点超时
3.6 流计算中的非确定性
3.7 维度表增强
3.8 异步 I/O 支持重试
4.PyFlink
5.其他
5.1 新语法
5.2 在数据流中缓存
5.3 历史服务器和已完成作业的信息增强
5.4 Protobuf 格式
5.5 为异步Sink引入可配置的 RateLimitingStrategy
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。