Impala简介PB级大数据实时查询分析引擎

时间:2023-02-26 16:52:41

1、Impala简介

  • Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。
  • 基于Hive使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点
  • 是CDH平台首选的PB级大数据实时查询分析引擎

   官网:http://www.cloudera.com/products/apache-hadoop/impala.html

      http://www.impala.io/index.html

  下面是在基于单用户和多用户查询的时候,不同的查询分析器所使用的时间:

    Impala简介PB级大数据实时查询分析引擎

2、Impala的特点

  • 1、基于内存进行计算,能够对PB级数据进行交互式实时查询、分析
  • 2、无需转换为MR,直接读取HDFS数据
  • 3、C++编写,LLVM统一编译运行
  • 4、兼容HiveSQL
  • 5、具有数据仓库的特性,可对hive数据直接做数据分析
  • 6、支持Data Local
  • 7、支持列式存储
  • 8、支持JDBC/ODBC远程访问

    Impala简介PB级大数据实时查询分析引擎(相比于Hive,Impala不需要启动MapReduce直接同HDFS或HBase进行交互)

3、Impala 劣势

  • 1、对内存依赖大
  • 2、C++编写 开源?!
  • 3、完全依赖于hive
  • 4、实践过程中 分区超过1w 性能严重下下降
  • 5、稳定性不如hive

4、Impala安装

  • 安装方式:
    – 1、ClouderaManager
    – 2、手动安装(待续)

      Impala简介PB级大数据实时查询分析引擎

      可以使用CDH安装,方便快捷,而且管理起来更加方便,下面是CDH安装以后的CDH管理界面:

      Impala简介PB级大数据实时查询分析引擎

5、Impala核心组件 

  • Statestore Daemon
    • 实例*1 - statestored
      – 负责收集分布在集群中各个impalad进程的资源信息、各节点健康状况,同步节点信息.
      – 负责query的调度
  • Catalog Daemon
    • 实例*1 - catalogd
      – 分发表的元数据信息到各个impalad中
      – 接收来自statestore的所有请求
  • Impala Daemon
    • 实例*N – impalad
      – 接收client、hue、jdbc或者odbc请求、Query执行并返回给中心协调节点
      – 子节点上的守护进程,负责向statestore保持通信,汇报工作

6、Impala架构

    Impala简介PB级大数据实时查询分析引擎

    (1) 由Client发送一个执行SQL到任意一台Impalad的Query Planner
    (2) 由Query Planner 把SQL发向Query Coordinator 
    (3) 由Query Coordinator 来调度分配任务到Impalad的所有节点
    (4) 各个Impalad节点的Query Executor 进行执行SQL工作 
    (5) 执行SQL结束以后,将结果返回给Query Coordinator
    (6) 再由Query Coordinator 将结果返回给Client

Impala 4、Impala JDBC

摘要: • 配置: – impala.driver=org.apache.hive.jdbc.HiveDriver – impala.url=jdbc:hive2://node2:21050/;auth=noSasl – impala.username= – impala.password=• 尽量使用Pr阅读全文
posted @ 2016-03-23 22:32 Bodi 阅读(297) | 评论 (0) 编辑
 
摘要: Impala可以通过Hive外部表方式和HBase进行整合,步骤如下: • 步骤1:创建hbase 表,向表中添加数据 • 步骤2:创建hive表 • 步骤3:刷新Impala表阅读全文
posted @ 2016-03-23 22:28 Bodi 阅读(389) | 评论 (0) 编辑
 
摘要: 1、Impala 外部 Shell Impala外部Shell 就是不进入Impala内部,直接执行的ImpalaShell 例如通过外部Shell查看Impala帮助可以使用: $ impala-shell -h 这样就可以查看了; 再例如显示一个SQL语句的执行计划: $ impala-shel阅读全文
posted @ 2016-03-23 21:50 Bodi 阅读(3849) | 评论 (1) 编辑
 
摘要: • Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。 • 基于Hive使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点 • 是CDH平台首选的PB级大数据实时查询分析引擎Impala简介PB级大数据实时查询分析引擎阅读全文

Impala简介PB级大数据实时查询分析引擎的更多相关文章

  1. Druid:一个用于大数据实时处理的开源分布式系统——大数据实时查询和分析的高容错、高性能开源分布式系统

    转自:http://www.36dsj.com/archives/28590 Druid 是一个用于大数据实时查询和分析的高容错.高性能开源分布式系统,旨在快速处理大规模的数据,并能够实现快速查询和分 ...

  2. 腾讯云EMR大数据实时OLAP分析案例解析

    OLAP(On-Line Analytical Processing),是数据仓库系统的主要应用形式,帮助分析人员多角度分析数据,挖掘数据价值.本文基于QQ音乐海量大数据实时分析场景,通过QQ音乐与腾 ...

  3. 使用Oracle Stream Analytics 21步搭建大数据实时流分析平台

    概要: Oracle Stream Analytics(OSA)是企业级大数据流实时分析计算平台.它可以通过使用复杂的关联模式,扩充和机器学习算法来自动处理和分析大规模实时信息.流式传输的大数据可以源 ...

  4. [NewLife.XCode]分表分库(百亿级大数据存储)

    NewLife.XCode是一个有15年历史的开源数据中间件,支持netcore/net45/net40,由新生命团队(2002~2019)开发完成并维护至今,以下简称XCode. 整个系列教程会大量 ...

  5. 《深度访谈:华为开源数据格式 CarbonData 项目,实现大数据即席查询秒级响应》

    深度访谈:华为开源数据格式 CarbonData 项目,实现大数据即席查询秒级响应   Tina 阅读数:146012016 年 7 月 13 日 19:00   华为宣布开源了 CarbonData ...

  6. 给Clouderamanager集群里安装基于Hive的大数据实时分析查询引擎工具Impala步骤(图文详解)

    这个很简单,在集群机器里,选择就是了,本来自带就有Impala的. 扩展博客 给Ambari集群里安装基于Hive的大数据实时分析查询引擎工具Impala步骤(图文详解)

  7. 给Ambari集群里安装基于Hive的大数据实时分析查询引擎工具Impala步骤(图文详解)

    不多说,直接上干货! Impala和Hive的关系(详解) 扩展博客 给Clouderamanager集群里安装基于Hive的大数据实时分析查询引擎工具Impala步骤(图文详解) 参考 horton ...

  8. 大数据实时计算工程师/Hadoop工程师/数据分析师职业路线图

    http://edu.51cto.com/roadmap/view/id-29.html http://my.oschina.net/infiniteSpace/blog/308401 大数据实时计算 ...

  9. Storm 实战:构建大数据实时计算

    Storm 实战:构建大数据实时计算(阿里巴巴集团技术丛书,大数据丛书.大型互联网公司大数据实时处理干货分享!来自淘宝一线技术团队的丰富实践,快速掌握Storm技术精髓!) 阿里巴巴集团数据平台事业部 ...

随机推荐

  1. java 线程的开始、暂停、继续

    Android项目中的一个需求:通过线程读取文件内容,并且可以控制线程的开始.暂停.继续,来控制读文件.在此记录下. 直接在主线程中,通过wait.notify.notifyAll去控制读文件的线程( ...

  2. HDU 1789 Doing Homework again(贪心)

    Doing Homework again 这只是一道简单的贪心,但想不到的话,真的好难,我就想不到,最后还是看的题解 [题目链接]Doing Homework again [题目类型]贪心 & ...

  3. c# 重载运算符(+-|&)和扩展方法

    通常我们需要对class的相加,相减,相乘 等重载以适应需求, 如caml查询的时候,我们可以定义一个caml类,然后来操作这些查询. 首先,我们定义一个class为Test public class ...

  4. ColorBox常见问题

    发现colorbox官方网站的troubleshoot写的比较好,转载一下. 1,flash覆盖colorbox: This is not a ColorBox specific problem, b ...

  5. OSGI框架中通过BundleContext对象对服务的注册与引用

    BundleActivator 在每个Bundle新建时都会默认生成Activator类,该类实现了BundleActivator类,实现了其start()和stop()两个方法 BundleCont ...

  6. elasticsearch单例模式连接

    import java.net.InetAddress;import org.elasticsearch.client.transport.TransportClient;import org.ela ...

  7. Linux忘记开机密码怎么办?

    Linux忘记开机密码怎么办?1. 开机ESC/Shift,在出现grub画面时,用上下键选中你平时启动linux的那一项,然后按e键2. 再次用上下键选中你平时启动linux的那一项(类似于kern ...

  8. GetPJData - uGetHttpData.pas

    function GetPJData(APage: Integer): string; var IdHTTP: TIdHTTP; url: string; paramsList: TStringLis ...

  9. java时间日期类(Date、DateFormat、Calendar)学习

    1.Date类 常用方法:long getTime(),用于返回当前时刻的毫秒值 Date d = new Date(2000); System.out.println(d.getTime());// ...

  10. .NET并行计算和并发4-Thread-Relative Static Fields and Data Slots

    Thread Local Storage: Thread-Relative Static Fields and Data Slots 文章摘自msdn library官方文档 可以使用托管线程本地存储 ...