Impala由Cloudera公司主导开发的大数据实时查询分析工具,宣称比原来基于MapReduce的HiveSQL查询速度提升3~90倍,且更加灵活易用。提供类SQL的查询语句,能够查询存储在Hadoop的HDFS、Kudu、HBase(实际生产环境中不用)中的PB级大数据。查询速度快是其最大的卖点。简言之impala作为大数据实时查询分析工具,具有查询速度快,灵活性高,易整合,可伸缩性强等特点。
但是在一些实时性要求很高的场景中,一方面满足实时性要求,一方面提升用户体验。Impala因其快速的响应能力当之无愧作为首选查询分析工具。
编程简单:适用于所有的etl开发工作者,sql几乎通用
高性能:轻松的应用复杂的分析场景
查询速度快:中间结果不写入磁盘,及时通过网络以流的形式传递,大大降低的节点的IO开销
灵活性高:可以直接查询存储在HDFS上的原生数据,也可以查询Kudu的数据原生数据
易整合:很容易和hadoop系统整合,并使用Hadoop生态系统的资源和优势,不需要将数据迁移到特定的存储系统就能满足查询分析的要求
可伸缩性:可以很好的与一些BI应用系统协同工作,如Cboard、Tableau等
可扩展: 随着业务发展,数据量和计算量越来越大,系统可水平扩展
容错:单个节点挂了不影响应用
适用人群
1、零基础学员
2、大数据爱好者
3、对Impala技术感兴趣的大数据开发人员
课程使用软件版本
CentOS-7.4-X86_64
Apache-maven-3.5.3
JDK-8u181-linux-x64
Impala-2.12.0
Kudu-1.7.0
课时 1 : Impala的产生背景和应用场景
课时 2 : Impala的基础架构
课时 3 : Impala的读写流程
课时 4 : Impala和Hive的对比
课时 5 : Impala的部署模式和执行计划解析
课时 6 : ClouderaManager介绍
课时 7 : Impala-hdfs集群安装部署与测试
课时 8 : Impala-kudu集群安装部署与测试
课时 9 : Impala-hue集群安装部署与测试
课时 10 : Impala的数据压缩和存储格式
课时 11 : Impala同步hive元数据原理
课时 12 : Impala同步hive元数据企业级应用
课时 13 : Impala-hue同步hive元数据企业级应用
课时 14 : Impala-shell企业级使用规范
课时 15 : Impala官网文档介绍
课时 16 : Impala-sql实战一之数据类型
课时 17 : Impala-sql实战二之运算符
课时 18 : Impala-sql实战三之表结构
课时 19 : Impala-sql实战四之存储索引
课时 20 : Impala-sql实战五之statement
课时 21 : Impala-sql实战六之聚合函数
课时 22 : Impala-sql实战七之窗口分析函数
课时 23 : Impala-sql实战八之行列转换
课时 24 : Impala-sql实战九之case判断
课时 25 : Impala-udf企业级使用规范
课时 26 : Impala-hdfs集群性能调优
课时 27 : Impala-kudu集群性能调优
课时 28 : Impala课程资料