Impala 介绍

# 概述

Impala 是一个架构于 hadoop 之上的全新、开源 MPP 查询引擎，提供低延迟、高并发的以读为主的查询。

Impala 提升了查询性能，又保留了用户熟悉的操作。通过 Impala，你可以使用 SELECT、JOIN 和聚集函数等语法，实时地查询储存在 HDFS 或 HBase 上的数据。除此之外，Impala 使用 Hive 的元数据库、SQL 语法，ODBC 驱动及用户界面，提供一个友好、统一的平台进行批处理或实时查询。因此，Hive 用户能够很方便的使用 Impala。

# 架构

为了避免延迟，Impala 摒弃了 MapReduce 引擎，借鉴 MPP 并行数据库的思想，使用一个专用的、分布式的查询引擎直接访问数据。依据查询的类型和配置，与 Hive 相比较，性能有数量级的提升。

由架构图可以看出查询的执行过程：

由 Client 发送一个执行 SQL 到任意一台 Impalad 的 Query Planner
由 Query Planner 把 SQL 发向 Query Coordinator
由 Query Coordinator 来调度分配任务到 Impalad 的所有节点
各个 Impalad 节点的 Query Executor 进行执行 SQL 工作
执行 SQL 结束以后，将结果返回给 Query Coordinator
再由 Query Coordinator 将结果返回给 Client

# 服务组件

Impala 由三个核心服务构成：Statestored、Catalogd、Impalad。

Statestored: 一个实例。Statestore daemon 负责收集分布在集群中各个 impalad 进程的资源信息，各节点健康状况，同步节点信息，负责 query 的调度。
Catalogd: 一个实例。Catalog daemon 负责接收来自 Statestored 的所有请求，把 impala 的 metadata 分发到各个 impalad。
Impalad: N 个实例。Impala daemon 运行在 1 个或多个节点上，与 Statestored 保持通信，负责接收客户端的请求并返回结果。

Impala 没有主节点，Statestored 与 Catalogd 具有主节点的功能，可当作主节点，Impalad 可理解为从节点。

# 特点

Impala 提供对 HDFS、HBase 数据的高性能、低延迟的交互式 SQL 查询，基于 Hive 并使用内存计算，兼顾数据仓库、具有实时、批处理、多并发等优点。具体特点：

基于内存进行计算，能够对 PB 级数据进行交互式实时查询、分析
直接读取 HDFS 数据，完全抛弃 MapReduce，省掉了作业启动的开销；借鉴 MPP 并行数据库的思想，省掉了 shuffle、sort 等开销；中间结果不落地，省掉了大量的 IO 开销。
C++编写，LLVM 统一编译运行
兼容 HiveSQL
具有数据仓库的特性，可对 Hive 数据直接做数据分析
支持 Data Local
支持列式存储
支持 JDBC/ODBC 远程访问

基于这些特点，Impala 是 CDH 平台首选的 PB 级大数据实时查询分析引擎。

另外，Impala 也有一些劣势，比如对内存依赖大、过于依赖 Hive 等，使用上也有其他的限制，具体限制参考官方文档。但这不足以影响 Impala 良好的实时查询分析特点。

在 GitHub 编辑此页

上次更新: 2024/02/25, 12:11:11