学习 Livy(二):Java API

Apache Livy 提供了 Java API 提交 Spark 任务到 Livy。 添加依赖: <dependency> <groupId>org.apache.livy</groupId> <artifactId>livy-client-http& »

学习 Hive(十三):Lateral View

Lateral View 用于关联 UDTF 生成的表,生成零到多行数据。Lateral View 先会对基础表中的每一行数据执行 UDTF,结果同基础表关联(默认为 CROSS JOIN)形成一个新表。 语法: lateralView: LATERAL VIEW udtf(expression) tableAlias AS columnAlias (',' »

学习 HBase(一):初识 HBase

Apache HBase 是 Hadoop 生态圈中分布式、可扩展的大数据存储解决方案。 基于 Google Bigtable 论文: Bigtable: A Distributed Storage System for Structured Data。 拥有以下特性: 线性且模块化的扩展能力 严格一致性的读写 自动和可配置的表分片 支持 RegionServers 间自动故障转移 易于使用的 »

学习 Griffin(二):部署

Apache Griffin 版本:0.4.0 架构 Griffin 架构如下所示: 技术组件包括: Apache Hadoop 批量数据源,存储指标数据 Apache Kafka 实时数据源 Apache Hive Hive Metastore Apache Spark 计算批量、实时指标 Apache »

学习 Griffin(一):简介

Apache Griffin 是构建在 Apache Hadoop 和 Apache Spark 之上的数据质量平台。 支持对批量数据和实时数据。 最初由 eBay 公司开发,2016 年 12 月 7 日成为 Apache 孵化项目,2018 年 11 月 21 »