课程目标:
通过本次Hadoop培训,会对大数据离线计算、实时计算的企业级构架有清晰的理解以及对常用的成熟的大数据开源项目从原理到使用有深入的理解。
实时计算的项目常用组合为Flume(数据采集) + Kafka(高可用高并发分布式消息队列) + spark streaming(流式计算) + hbase(分布式列式存储数据库,亿级行百万列毫秒级查询)
离线计算项目常用组合为分布式文件存储HDFS,资源调度器、分布式计算框架MapReduce、数据仓库Hive。
课程大纲:
第一 部份
【1】
离线计算:
Hadoop大数据生态圈、分布式存储HDFS、资源管理
大数据生态圈介绍
开源相关项目说明以及每个项目的用途
实时计算整体构架详解
离线计算整体构架详解
分布式文件系统HDFS是什么
HDFS的体系结构
HDFS高可用集群原理详解
HDFS如何使用
资源管理器介绍以及构架
资源管理器核心组件详解
资源调度器详解
【2】
离线计算:
Hadoop MapReduce&Hive
分布式计算MapReduce介绍
MapReduce整体流程
MapReduce实例
数据仓库工具Hive介绍
Hive模型介绍:数据库、表、分区、高级函数
Hive元数据介绍
第二部份
【1】
实时计算:
数据采集Flume、分布式消息队列Kafka
实时计算整体构架设计
Flume是什么以及体系结构介绍
Flume组件介绍:agent、source、channel、sink
Flume高可用拓扑介绍
Kafka体系结构详解
Kafka核心概念
Kafka高可用高并发原理
Kafka生产者消费者
Flume写入kafka
【2】
实时计算:
spark streaming流式计算、HBase分布式列存储
spark是什么以及体系结构
弹性分布式数据集RDD
spark streaming流式计算体系结构
spark steaming读取kafka
spark算子详解
HBase存储数据库体系结构
Hbase的高可用
HBase数据模型详解
HBase毫秒级查询