一、背景
Flink需要支持流重放并且还要不影响结果,因此不能仅仅支持计算时间还要支持事件时间。事件流在传输和处理过程耗时不同,导致下游节点接受到的数据流可能是乱序的。由于程序不能无限制等待所有事件到达之后再处理,因此需要决定何时停止等待前序事件,这就是Watermarks的作用。
Flink中流入的数据分为三种类型:事件流、watermark和checkpoint barriers。其中watermark和checkpoint barriers都是flink根据一些策略生产的。
二、时间语义
1.事件时间(event time)
2.读取时间(ingestion time)
3.处理时间(processing time)
三、水印-Watermarks
1.延迟和正确性
2.延迟事件
3.顺序流
4.无序流
5.并行流
四、Windows
1.窗口维度分类
1.1 时间窗口
1.2 数量窗口
2.窗口规则分类
2.1 滚动窗口
2.2 滑动窗口
2.3 会话窗口
2.4 全局窗口
3.内置窗口
4.窗口函数
4.1 增量计算
4.2 全量计算
总结
参考链接
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。