DDIA 第十一章：流处理_代码007(未授权)

本文介绍: 什么是“流”？● “流”是指随着时间的推移逐渐可用的数据。 ○ Unix的stdin和stdout，编程语言（惰性列表），文件系统API（如Java的FileInputStream），TCP连接，通过互联网传送音频和视频等等。● 我们将把事件流（event stream）视为一种数据管理机制：无界限，增量处理，与上一章中的批量数据相对应。

上一章的批处理技术讨论了什么？

批处理技术的问题？

什么是“流”？

流处理的输入输出的等价物看上去是什么样子？

流处理的数据消费方式？

流处理的数据怎么存储？

确定了事件的时间戳后，下面就是定义时间段的窗口。
滚动窗口（Tumbling Window）
滚动窗口有着固定的长度，每个事件都仅能属于一个窗口。例如，假设你有一个1分钟的滚动窗口，则所有时间戳在10:03:00和10:03:59之间的事件会被分组到一个窗口中，10:04:00和10:04:59之间的事件被分组到下一个窗口，依此类推。通过将每个事件时间戳四舍五入至最近的分钟来确定它所属的窗口，可以实现1分钟的滚动窗口。

跳动窗口也有着固定的长度，但允许窗口重叠以提供一些平滑。例如，一个带有1分钟跳跃步长的5分钟窗口将包含`10:03:00`至`10:07:59`之间的事件，而下一个窗口将覆盖`10:04:00`至`10:08:59`之间的事件，等等。通过首先计算1分钟的滚动窗口（tunmbling window），然后在几个相邻窗口上进行聚合，可以实现这种跳动窗口。

滑动窗口包含了彼此间距在特定时长内的所有事件。例如，一个5分钟的滑动窗口应当覆盖`10:03:39`和`10:08:12`的事件，因为它们相距不超过5分钟（注意滚动窗口与步长5分钟的跳动窗口可能不会把这两个事件分组到同一个窗口中，因为它们使用固定的边界）。通过维护一个按时间排序的事件缓冲区，并不断从窗口中移除过期的旧事件，可以实现滑动窗口。

与其他窗口类型不同，会话窗口没有固定的持续时间，而定义为：将同一用户出现时间相近的所有事件分组在一起，而当用户一段时间没有活动时（例如，如果30分钟内没有事件）窗口结束。会话切分是网站分析的常见需求（请参阅“[分组](ch10.md#%E5%88%86%E7%BB%84)”）。

SELECT follows.follower_id AS timeline_id, 
    array_agg(tweets.* ORDER BY tweets.timestamp DESC)
FROM tweets
JOIN follows ON follows.followee_id = tweets.sender_id 
GROUP BY follows.follower_id

代理将单条消息分配给消费者，消费者在成功处理单条消息后确认消息。消息被确认后从代理中删除。这种方法适合作为一种异步形式的RPC（另请参阅“[消息传递中的数据流](ch4.md#%E6%B6%88%E6%81%AF%E4%BC%A0%E9%80%92%E4%B8%AD%E7%9A%84%E6%95%B0%E6%8D%AE%E6%B5%81)”），例如在任务队列中，消息处理的确切顺序并不重要，而且消息在处理完之后，不需要回头重新读取旧消息。

代理将一个分区中的所有消息分配给同一个消费者节点，并始终以相同的顺序传递消息。并行是通过分区实现的，消费者通过存档最近处理消息的偏移量来跟踪工作进度。消息代理将消息保留在磁盘上，因此如有必要的话，可以回跳并重新读取旧消息。

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

ddia 原文读取

传递事件流

消息传递系统

直接从生产者传递给消费者

消息代理

消息代理与数据库的对比

多个消费者

确认与重新传递

分区日志

使用日志进行消息存储

日志与传统的消息传递相比

消费者偏移量

磁盘空间使用

当消费者跟不上生产者时

重播旧消息

数据库与流

保持系统同步

变更数据捕获

变更数据捕获的实现

初始快照

日志压缩

变更流的API支持

事件溯源

从事件日志中派生出当前状态

命令和事件

状态、流和不变性

不可变事件的优点

从同一事件日志中派生多个视图

并发控制

不变性的局限性

流处理

流处理的应用

复合事件处理

流分析

维护物化视图

在流上搜索

消息传递和RPC

时间推理

事件时间与处理时间

知道什么时候准备好了

你用的是谁的时钟？

窗口的类型

流连接

流流连接（窗口连接）

流表连接（流扩充）

表表连接（维护物化视图）

连接的时间依赖性

容错

微批量与存档点

原子提交再现

幂等性

失败后重建状态

本章小结

相关文章

发表回复 取消回复

发表回复取消回复