Shark
Shark Overview
一个独立,快速,类MapReduce的SQL引擎
- 基于内存存储数据,适合交互式查询
- 优秀的查询优化
- 比Hadoop快40倍以上
完全兼容Hadoop存储接口
- 可以读取或写入任何支持Hadoop的系统
- 包括HDFS,Hbase,SequenceFiles
Shark Overview
-
Shark即Hive on Spark,本质上是通过Hive的HQL解析,把HQL翻译成Spark上的RDD操作,然后通过Hive的metadata获取数据库里的表信息,实际HDFS上的数据和文件,会由Shark获取并放到Spark上运算。
-
Shark建立在Hive的代码基础上,并通过将Hive的部分物理执行计划交换出来(by swapping out the physical execution engine part of Hive)。这个方法使得Shark的用户可以加速Hive的查询
-
Shark在HQL方面重用了Hive中HQL的解析、逻辑执行计划翻译、执行计划优化等逻辑,完全兼容已有的Hive数据,metastores 和 查询( HiveQL,UDFs )
Project History
-
Spark project …