Zookeeper
注册中心/心跳检查中心/元数据存储中心
hadoop
- hdfs
- yarn
- mapreduce
- HUE=Hadoop User Experience(Hadoop用户体验),直白来说就一个开源的Apache Hadoop UI系统
- DFSIO 集群性能测试,用来测试集群的IO性能。
- Terasort 测试集群的排序能力。
Hive
以SQL的方式运行MapReduce,可以用于离线数仓的分析
Tez
是一个Hive的运行引擎,性能优于MR
HBase
- 海量数据存储,不支持关系存储。Key/Value的存储方式,列式存储。
- 不支持关联查询,要做数据分析就需要做宽表。
Phoenix
在 HBase 之上的开源 SQL 层. 能够让我们使用标准的JDBC去建表, 插入数据和查询 HBase 中的数据, 避免使用HBase的客户端API
Pig
数据集成
kafka数据传输到HDFS参考:
- 使用Flume消费Kafka数据到HDFS
-
- https://www.cnblogs.com/smartloli/p/9984140.html
-
- https://www.cnblogs.com/chuijingjing/p/10449474.html
canal
-
- https://blog.csdn.net/u012985132/article/details/74964366 实时抓取MySQL的更新数据到Hadoop canal
-
- https://www.cnblogs.com/throwable/p/12483983.html 基于Canal和Kafka实现MySQL的Binlog近实时同步
Sqoop
数据导入\导出工具,在Hive、Mysql、HDFS等之间互相导入导入。
DataX
本身作为数据同步框架
Flume
数据传输的框架,可以传给Kafka,再传給Flume,再传给Hdfs。 -- 流式计算
Kafka
分布式的基于发布/订阅模式的消息队列。 消息持久存储。
KafkaManager工具
Web端的Kafka管理工具
Kafka Monitor工具
能做消费者偏移量的监测
kafkatool工具
windows的kafka管理工具
Ambari
是Apache软件基金顶级项目,它是一个基于web的工具,用于安装、配置、管理和监视Apache Hadoop集群,
支持Hadoop HDFS,、Hadoop MapReduce、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同样还提供了集群状况仪表盘
比如heatmaps和查看MapReduce、Pig、Hive应用程序的能力,以友好的用户界面对它们的性能特性进行诊断。
CM - Cloudera Manager 用于安装CDH
CDH
用于安装Hadoop集群的一整套框架
Oozie
基于工作流引擎的开源框架,用于MapReduce、Pig job的任务调度。用于定时调度任务。
类似于Azkaban。不同的是Oozie是基于Hadoop的框架的,它直接跑在yarn上的。
kerberos
安装认证。一套安全认证框架。 主要负责平台用户的认证。
sentry
负责数据的权限管理。和kerberos一起使用来负责CDH的安全。
Scala
开发语言。Kafka、Spark基于Scala编写。
Spark
一个快速(基于内存), 通用, 可扩展的集群计算引擎。关键是它的RDD数据模型。一般运行在YARN上
SparkSQL
类似于Hive的,是 Spark 用于结构化数据(structured data)处理的 Spark 模块.
Spark Streaming
用于流式数据的处理,数据可以来源于多种数据源: Kafka, Flume, Redis、Kinesis, 或者 TCP 套接字、等
一般用来分析T+0的实时数据
- 场景1:从 kafka 消费数据, 分析处理用户对广告点击的行为数据
- 场景2:从 redis 消费数据, 分析每天每地区热门广告Top3
- 场景2:从 redis 消费数据, 分析最近1小时广告点击量实时统计
Flink
类似于Spark Streaming
Atlas
元数据的管理,查看表的元数据信息及表、字段的血缘关系
Ranger
运维用的 监控Hadoop相关的组件(安全框架)
Zabbix
运维用的 集群进程 性能的 监控框架
Azkaban
定时任务调度器,包括Azkaban Web服务器、Azkaban执行服务器
airflow?
DBeaver工具
可以查询很多种数据库的工具
Griffin
数据质量监控实现
Storm(流计算)
Storm是Twitter开源的分布式实时大数据处理框架,最早开源于github,从0.9.1版本之后,归于Apache社区,被业界称为实时版Hadoop。
随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍,比如网站统计、推荐系统、预警系统、金融系统(高频交易、股票)等等,大数据实时处理解决方案(流计算)的应用日趋广泛,目前已是分布式技术领域最新爆发点,而Storm更是流计算技术中的佼佼者和主流。
一些需要实时处理数据的场景也可以应用Storm,比如根据用户行为产生的日志文件进行实时分析,对用户进行商品的实时推荐等。
OLAP - ClickHouse Doris Kudu Kylin Presto Impala Supperset Davinci
Kudu
KUDU的定位是Fast Analytics on Fast Data,是一个既支持随机读写、又支持 OLAP 分析的大数据存储引擎
KUDU 是一个折中的产品,在 HDFS 和 HBase 这两个偏科生中平衡了随机读写和批量分析的性能。 ApacheKudu是由Cloudera开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力。
它是一个融合HDFS和HBase的功能的新组件,具备介于两者之间的新存储组件
Kudu支持水平扩展,并且与Cloudera Impala和Apache Spark等当前流行的大数据查询和分析工具结合紧密。
应用场景
- 适用于那些既有随机访问,也有批量数据扫描的复合场景
- 使用了高性能的存储设备,包括使用更多的内存
- 支持数据更新,避免数据反复迁移
- 支持跨地域的实时数据备份和查询
Doris
目前开源的OLAP引擎很多,但由于面临大促的压力,我们需要尽快完成选型并进行数据迁移,因此我们只考察了比较出名的几个OLAP系统: ClickHouse Druid 和 Doris
最终我们选择了Doris来替换我们的原有系统,主要基于以下几方面的考虑:
- Doris的查询速度是亚秒级的,并且相对ClickHouse来说,Doris对高并发的支持要优秀得多。
- Doris扩容方便,数据可以自动进行负载均衡,解决了我们原有系统的痛点。ClickHouse在扩容时需要进行数据重分布,工作量比较大。
- Doris支持Rollup和Online Schema Change,这对我们日常业务需求十分友好。而且由于支持MySQL协议,Doris可以很好地和之前已有的系统进行融合。而Druid对标准SQL的支持有限,并且不支持MySQL协议,对于我们来说改造成本很高。
Druid
列式存储、支持分布式,实时分析的数据存储系统。在处理PB级数据、毫秒级查询、数据实时处理方面性能较好。
预计算
Kylin
是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,
最初由eBay开发并贡献至开源社区。
能在亚秒内查询巨大的Hive表
预计算
Zeppelin
查询的客户端工具,可以查询Kylin、Spark等
Presto - 分布式SQL查询引擎,它不是一个数据库。
Impala
性能稍领先于Presto,但是Presto在数据源支持上非常丰富,包括Hive、图数据库、传统关系型数据库、Redis等
HCP产品衍生的。
支持GB到PB级别数据的秒级查询。
Impala 对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能
基于Hive,使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点。
是CDH平台首选的PB级大数据实时查询分析引擎
比Hive快100倍左右。
Supperset
数据可视化组件 开源的、现代的、轻量级BI分析工具,能够对接多种数据源、拥有丰富的图标展示形式、支持自定义仪表盘,且拥有友好的用户界面,十分易用
Davinci
可视化服务平台
弃用
Camus(已被Gobblin替代,而Gobblin的最新版本才0.12,近3年都没发新版本,所以弃用)
https://saurzcode.in/2015/02/integrate-kafka-hdfs-using-camus-twitter-stream-example/?cn-reloaded=1