Bootstrap

KUDU的相关内容,KUDU的优劣势

kudu的简介

kudu是什么

kudu其实是一种引擎,是一种针对HIVE的引擎

那么怎么读取数据呢

使用IMAPALA读取数据,IMPALA可以选择各种hive引擎,而KUDU就是其中之一

什么是IMPALA?

说得明白一点其实就相当于是mysql中得navicat软件,是一种读取数据库得工具

kudu

kudu吞吐率太差,当单线程跑时,性能完爆几乎所有数据库,包括Oracle,可是当数据量不大,并发数极高的情况下,不及mysql,kudu比较适合大型数据任务,低并发任务的实时查询(越少越快)。很多场景并不适用,目前比较主流的计算要么是大数据离线计算用hive,要么少量数据实时计算,用传统关系型数据库。这种大数据低并发,实时计算场景在应用中并不多

适用场景

kudu适用于公司内部做分析用,涉及的数据量大但是并发量小,而且响应迅速

对比

impala+kudu根本没有多少人用,稳定性不好,而且数据要在缓存中才更快,否则不如sparksql;
impala推荐配置128G内存,kudu集群最少4台,这配置弄spark,PB级数据无压力

Hive: 数据直接存放于hdfs中, 适合离线分析, 不利于记录级别的随机读写。
Hbase: 将数据存放再hbase中, 适合记录级别的随机读写, 对离线分析不友好。
Kudu: 是对 hdfs 和 hbase 功能上的补充, 能提供快速的分析 和 实时计算能力

;