本阶段介绍Hive 是基于Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql 查询功能,可以将sql 语句转换为MapReduce 任务进行运行。其优点是学习成本低,可以通过类SQL 语句快速实现简单的MapReduce 统计,不必开发专门的MapReduce 应用,十分适合数据仓库的统计分析。
Hive的特点
1.)可扩展
Hive可以自由的扩展集群的规模,一般情况下不需要重启服务。
2.)延展性
Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。
3.)容错
良好的容错性,节点出现问题SQL仍可完成执行。