学习 Flink(五):状态

Flink 支持有状态的操作和用户方法。例如,窗口操作使用状态维护不断追加的聚合数据,sink 操作使用状态保证一致性提供 exactly-once 语义。

Flink 状态主要分为两种:

  • 操作状态
  • 键状态

Flink 支持三种状态后端:

  • 内存
  • 文件系统
  • RocksDB

操作状态

操作状态(Operator State),即每个操作状态绑定到一个并发操作实例上。

Operator State

Flink 提供了以下操作状态:

  • Broadcast State:BroadcastState<K,V> 广播状态,存储在广播状态中的元素可以被所有的操作访问。

键状态

Keyed State

Flink 提供了以下键状态:

  • Value State:ValueState<T> 分区的单值状态。
  • Map State:MapState<UK,UV> 分区的键值状态。
  • List State:ListState<T> 分区的列表状态。
  • Reducing State:ReducingState<T> 每次调用 add(T) 添加新元素,会调用 ReduceFunction 进行聚合。传入类型和返回类型相同。
  • Aggregating State:AggregatingState<IN,OUT> 每次调用 add(T) 添加新元素,会调用 ReduceFunction 进行聚合。传入类型和返回类型可以不同。

状态后端

内存

适用场景:调试、无状态或可以容忍数据的丢失和重复。

文件系统

适用场景:普通状态、窗口、键值结构。

RocksDB

适用场景:超大状态、超长窗口、大型键值结构。

可查询的状态

TODO

TTL

TODO

参考