Flink的三种时间语义

大大源码 • 2023年3月18日 pm8:10 • 其他

Event Time

在大数据领域，日志服务器生成的一条数据也可以称为一个事件。Event Time是指在数据产生时该设备上对应的时间，这个时间在进入Flink之前已经存在于数据记录中了。以后数据被Flink处理数据，如果使用Event Time作为时间标准，那么数据并不是按照Event Time的先后顺序被处理的，由于数据可能产生在多个不同的日志服务器，然后通常是再将数据写入到分布性消息中间件，然后被被Flink拉取进行处理时，处理的实际时间相对于数据产生的实际肯定有一定的延迟，并且Event Time可能也是乱序的。那么为什么还要使用Event Time呢？是因为使用Event Time时，Flink程序可以处理乱序事件和延迟数据。并且最重要的功能就是可以统计在数据产生时，对应时间的数据指标。

总之，使用Event Time的优势是结果的可预测性，缺点是缓存较大，增加了延迟，且调试和定位问题更复杂。

Processing Time

Processing Time是指事件数据被Operator处理时所在机器的系统时间，它提供了最好的性能和最低的延迟。但是，Flink是一个在分布式的计算框架，数据从产生到被处理会有一定的延迟（例如从消息队列拉取数据到Source，Source再到处理的Operator会有一定的延迟），所以Processing Time无法精准的体现出数据在产生的那个时刻的变化情况。

Ingestion Time

Ingestion Time指的是事件数据进入到Flink的时间。每条数据的Ingestion Time就是进入到Source Operator时所在机器的系统时间。比如Flink从Kafka消息中间件消费数据，每一条数据的Ingestion Time就是FlinkKafkaConsumer拉取数据进入到TaskManager对应的时间。Ingestion Time介于Event Time和Processing Time之间，与 Event Time 相比，Ingestion Time程序无法处理任何无序事件或延迟数据，并且程序不必指定如何生成水，Flink会自动分配时间戳和自动生成水位线。

原文链接：https://blog.csdn.net/weixin_59295776/article/details/121807177

THE END

服务器 ssd虚拟内存,ssd虚拟内存设多大

< <上一篇

Hbase使用filter快速高效查询

下一篇>>

大大搜源码

搜索内容

Flink的三种时间语义

Event Time

Processing Time

Ingestion Time