Exploring
首页
  • Java

    • 面向对象的思想OOP
    • 浅谈Java反射原理
    • endorsed覆盖JDK中的类
  • 认证与授权

    • LDAP概念和原理介绍
    • OAuth2介绍
  • Impala

    • Impala 介绍
  • MySQL

    • 关于MySQL的一些面试题
    • 解决MySQL不到中文数据
    • 数据库之事务与实现原理
  • Oracle

    • oracle的表空间,用户管理,表操作,函数
    • oracle的查询、视图、索引
    • plsql简单入门
  • Redis

    • 数据类型详解
    • 跳越表
    • 数据持久化的两种方式
  • 共识算法

    • gossip
  • RPC

    • GRPC初识与快速入门
    • ProtocolBuffer基本语法
  • RabbitMQ

    • RabbitMQ入门程序之HelloWorld
    • RabbitMQ之工作模式
  • Zookeeper

    • Zookeeper一文入门
  • Docker

    • Docker入门初体验
  • Maven

    • 把自己的包到Maven中央仓库
    • Maven之自定义插件
  • Nginx

    • nginx的安装
    • nginx的配置文件
    • nignx 的变量
  • Tomcat

    • Servlet3通过SPI进行注册组件
  • Vagrant

    • vagrant 初始化
    • vagrant 常用配置
    • vagrant 自己制作 box
  • Linux

    • 启动方式 Systemd
    • 后台服务
    • 防火墙与 Iptables
  • 设计模式

    • 设计模式-代理
    • 设计模式-单例模式
    • 设计模式-迭代器
  • 分布式

    • CAP 理论
  • 数据结构

    • 数据结构之堆Heap
    • 数据结构之哈希表
    • 数据结构之队列
  • 计算机网络

    • HTTP与HTTPS详解
    • 浅谈DNS协议
    • ISP中的网络层
  • 算法

    • 常用查找算法及Java实现
    • 常用排序算法及Java实现
    • 迪杰斯特拉算法
  • 操作系统

    • 操作系统之进程调度算法
    • 操作系统之进程通讯IPC
    • 操作系统之内存管理
  • 抓包

    • 生成安卓系统证书
  • 加解密

    • 常见加密算法
    • 公开秘钥基础知识
    • RSA 解析
  • Windows

    • scoop 包管理
    • windows-terminal 配置
    • 增强 PowerShell
归档
Github (opens new window)
首页
  • Java

    • 面向对象的思想OOP
    • 浅谈Java反射原理
    • endorsed覆盖JDK中的类
  • 认证与授权

    • LDAP概念和原理介绍
    • OAuth2介绍
  • Impala

    • Impala 介绍
  • MySQL

    • 关于MySQL的一些面试题
    • 解决MySQL不到中文数据
    • 数据库之事务与实现原理
  • Oracle

    • oracle的表空间,用户管理,表操作,函数
    • oracle的查询、视图、索引
    • plsql简单入门
  • Redis

    • 数据类型详解
    • 跳越表
    • 数据持久化的两种方式
  • 共识算法

    • gossip
  • RPC

    • GRPC初识与快速入门
    • ProtocolBuffer基本语法
  • RabbitMQ

    • RabbitMQ入门程序之HelloWorld
    • RabbitMQ之工作模式
  • Zookeeper

    • Zookeeper一文入门
  • Docker

    • Docker入门初体验
  • Maven

    • 把自己的包到Maven中央仓库
    • Maven之自定义插件
  • Nginx

    • nginx的安装
    • nginx的配置文件
    • nignx 的变量
  • Tomcat

    • Servlet3通过SPI进行注册组件
  • Vagrant

    • vagrant 初始化
    • vagrant 常用配置
    • vagrant 自己制作 box
  • Linux

    • 启动方式 Systemd
    • 后台服务
    • 防火墙与 Iptables
  • 设计模式

    • 设计模式-代理
    • 设计模式-单例模式
    • 设计模式-迭代器
  • 分布式

    • CAP 理论
  • 数据结构

    • 数据结构之堆Heap
    • 数据结构之哈希表
    • 数据结构之队列
  • 计算机网络

    • HTTP与HTTPS详解
    • 浅谈DNS协议
    • ISP中的网络层
  • 算法

    • 常用查找算法及Java实现
    • 常用排序算法及Java实现
    • 迪杰斯特拉算法
  • 操作系统

    • 操作系统之进程调度算法
    • 操作系统之进程通讯IPC
    • 操作系统之内存管理
  • 抓包

    • 生成安卓系统证书
  • 加解密

    • 常见加密算法
    • 公开秘钥基础知识
    • RSA 解析
  • Windows

    • scoop 包管理
    • windows-terminal 配置
    • 增强 PowerShell
归档
Github (opens new window)
  • Impala

    • Impala 介绍
      • 概述
      • 架构
      • 服务组件
      • 特点
  • 大数据
  • Impala
unclezs
2023-02-03
0
目录

Impala 介绍

# 概述

Impala 是一个架构于 hadoop 之上的全新、开源 MPP 查询引擎,提供低延迟、高并发的以读为主的查询。

Impala 提升了查询性能,又保留了用户熟悉的操作。通过 Impala,你可以使用 SELECT、JOIN 和聚集函数等语法,实时地查询储存在 HDFS 或 HBase 上的数据。除此之外,Impala 使用 Hive 的元数据库、SQL 语法,ODBC 驱动及用户界面,提供一个友好、统一的平台进行批处理或实时查询。因此,Hive 用户能够很方便的使用 Impala。

# 架构

为了避免延迟,Impala 摒弃了 MapReduce 引擎,借鉴 MPP 并行数据库的思想,使用一个专用的、分布式的查询引擎直接访问数据。依据查询的类型和配置,与 Hive 相比较,性能有数量级的提升。

由架构图可以看出查询的执行过程:

  1. 由 Client 发送一个执行 SQL 到任意一台 Impalad 的 Query Planner
  2. 由 Query Planner 把 SQL 发向 Query Coordinator
  3. 由 Query Coordinator 来调度分配任务到 Impalad 的所有节点
  4. 各个 Impalad 节点的 Query Executor 进行执行 SQL 工作
  5. 执行 SQL 结束以后,将结果返回给 Query Coordinator
  6. 再由 Query Coordinator 将结果返回给 Client

# 服务组件

Impala 由三个核心服务构成:Statestored、Catalogd、Impalad。

  • Statestored: 一个实例。Statestore daemon 负责收集分布在集群中各个 impalad 进程的资源信息,各节点健康状况,同步节点信息,负责 query 的调度。
  • Catalogd: 一个实例。Catalog daemon 负责接收来自 Statestored 的所有请求,把 impala 的 metadata 分发到各个 impalad。
  • Impalad: N 个实例。Impala daemon 运行在 1 个或多个节点上,与 Statestored 保持通信,负责接收客户端的请求并返回结果。

Impala 没有主节点,Statestored 与 Catalogd 具有主节点的功能,可当作主节点,Impalad 可理解为从节点。

# 特点

Impala 提供对 HDFS、HBase 数据的高性能、低延迟的交互式 SQL 查询,基于 Hive 并使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点。具体特点:

  • 基于内存进行计算,能够对 PB 级数据进行交互式实时查询、分析
  • 直接读取 HDFS 数据,完全抛弃 MapReduce,省掉了作业启动的开销;借鉴 MPP 并行数据库的思想,省掉了 shuffle、sort 等开销;中间结果不落地,省掉了大量的 IO 开销。
  • C++编写,LLVM 统一编译运行
  • 兼容 HiveSQL
  • 具有数据仓库的特性,可对 Hive 数据直接做数据分析
  • 支持 Data Local
  • 支持列式存储
  • 支持 JDBC/ODBC 远程访问

基于这些特点,Impala 是 CDH 平台首选的 PB 级大数据实时查询分析引擎。

另外,Impala 也有一些劣势,比如对内存依赖大、过于依赖 Hive 等,使用上也有其他的限制,具体限制参考官方文档。但这不足以影响 Impala 良好的实时查询分析特点。

在 GitHub 编辑此页 (opens new window)
上次更新: 2024/02/25, 12:11:11
Theme by Vdoing | Copyright © 2018-2024 unclezs
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式