学习 Parquet(一):初识 Parquet

Apache Parquet 是 Hadoop 生态圈列式存储文件格式。

文件格式

Parquet File Format

类型

Parquet 类型:

  • BOOLEAN 1 bit boolean
  • INT32 32 bit 有符号整型
  • INT64 64 bit 有符号整型
  • INT96 96 bit 有符号整型
  • FLOAT IEEE 32 bit 浮点型
  • DOUBLE IEEE 64 bit 浮点型
  • BYTE_ARRAY byte 数组

Parquet 逻辑类型:

TODO

参考