课程门户-章节详情

Hadoop大数据技术原理与应用

凌敏

目录

1 第1章初识Hadoop
- 1.1 大数据概述
- 1.2 大数据应用场景
- 1.3 Hadoop概述
- 1.4 章节测试
2 第2章搭建Hadoop集群
- 2.1 安装准备
- 2.2 Hadoop集群搭建
  - 2.2.1 Hadoop单机模式安装
  - 2.2.2 伪分布式模式部署
  - 2.2.3 完全分布式模式
- 2.3 Hadoop集群测试
- 2.4 章节测试
3 第3章 HDFS分布式文件系统
- 3.1 HDFS的简介
- 3.2 HDFS构架和原理
- 3.3 HDFS的Shell操作
- 3.4 HDFS的Java API操作
- 3.5 章节测试
4 第4章 MapReduce分成式框架
- 4.1 MapReduce概述
- 4.2 MapReduce工作原理
- 4.3 Mapreduce编程组件
- 4.4 Mapreduce运行模式
- 4.5 MapReduce性能优化策略
- 4.6 经典案例
- 4.7 章节测试
5 第5章 Zookeeper分布式协调服务
- 5.1 Zookeeper的简介
- 5.2 Zookeeper的特性
- 5.3 Zookeeper集群角色
- 5.4 Zookeeper的数据模型
- 5.5 Zookeeper的Watch机制
- 5.6 Zookeeper的选举机制
- 5.7 Zookeeper分布式集群部署
- 5.8 Zookeeper的Shell操作
- 5.9 Zookeeper的Java API操作
- 5.10 Zookeeper典型应用场景
- 5.11 章节测试
6 第6章 Hadoop2.0新特性
- 6.1 Hadoop2.0改进与提升
- 6.2 Yarn体系结构
- 6.3 Yarn工作流程
- 6.4 HDFS HA的搭建方式
- 6.5 HDFS的高可用架构
- 6.6 章节测试
7 Hive仓库
- 7.1 数据仓库简介
  - 7.1.1 什么是数据仓库
  - 7.1.2 数据仓库的结构
  - 7.1.3 数据仓库数据模型
- 7.2 Hive简介
  - 7.2.1 什么是Hive
  - 7.2.2 Hive系统架构
  - 7.2.3 Hive工作原理
  - 7.2.4 Hive数据模型
- 7.3 Hive安装
- 7.4 Hive的管理方式
- 7.5 Hive内置数据类型
- 7.6 Hive数据模型操作
- 7.7 Hive数据操作
- 7.8 Hive章节测试
8 Flume日志采集系统
- 8.1 Flume简介
- 8.2 Flume运行机制
- 8.3 Flume日志采集系统架构
- 8.4 Flume系统要求
- 8.5 Flume安装配置
- 8.6 Flume入门使用
- 8.7 Flume Sources
- 8.8 Flume Channels
- 8.9 Flume Sinks
- 8.10 Flume负载均衡
- 8.11 Flume故障转移
- 8.12 Flume拦截器
- 8.13 案例-日志采集
- 8.14 Flume章节测验
9 工作流管理器
- 9.1 Azkaban工作管理流
  - 9.1.1 工作流管理器概述
  - 9.1.2 Azkaban概述
  - 9.1.3 Azkaban部署
    - 9.1.3.1 Azkaban资源准备
    - 9.1.3.2 Azkaban安装配置
    - 9.1.3.3 Azkaban启动测试
  - 9.1.4 Azkaban使用
    - 9.1.4.1 Azkaban工作流相关概念
    - 9.1.4.2 案例-依赖任务调度管理
    - 9.1.4.3 案例-MapReduce任务调度管理
    - 9.1.4.4 案例-Hive脚本任务调度管理
  - 9.1.5 Azkaban章节测试
10 Sqoop数据迁移
- 10.1 Sqoop概述
- 10.2 Sqoop安装配置
- 10.3 Sqoop指令介绍
- 10.4 Sqoop数据导入
- 10.5 Sqoop数据导出
- 10.6 sqoop章节测试
11 综合项目--网站流量日志数据分析系统
- 11.1 系统概述
- 11.2 模块开发-数据采集
- 11.3 模块开发-数据预处理
- 11.4 模块开发-数据仓库开发
- 11.5 模块开发-数据分析
- 11.6 模块开发-数据导出
- 11.7 模块开发-日志分析系统报表展示

HDFS构架和原理

上一节

下一节

3.2 HDFS架构和原理

3.2.1 HDFS存储架构

•HDFS采用主从架构（Master/Slave架构）。

•HDFS集群是由一个NameNode和多个的 DataNode组成。

3.2.2 HDFS读写原理

1. HDFS写数据原理

Client从HDFS中存储数据，即为Write（写）数据。

1) 客户端发起文件上传请求，通过RPC（远程过程调用）与NameNode建立通讯

2) NameNode检查元数据文件的系统目录树

3) 若系统目录树的父目录不存在该文件相关信息，返回客户端可以上传文件

4) 客户端请求上传第一个Block数据块以及数据块副本的数量

5) NameNode检测元数据文件中DataNode信息池，找到可用的数据节点

6) NameNode检查元数据文件的系统目录树

7) 若系统目录树的父目录不存在该文件相关信息，返回客户端可以上传文件

8) DataNode之间建立Pipeline后，逐个返回建立完毕信息

9) 客户端与DataNode建立数据传输流，开始发送数据包

10) 客户端向DataNode_01上传第一个Block数据块，当DataNode_01收到一个Packet就会传给DataNode_02，DataNode_02传给DataNode_03，DataNode_01每传送一个Packet都会放入一个应答队列等待应答

11) 数据被分割成一个个Packet数据包在Pipeline上依次传输，而在Pipeline反方向上，将逐个发送Ack，最终由Pipeline中第一个DataNode节点DataNode_01将Pipeline的 Ack信息发送给客户端。

12) DataNode返回给客户端，第一个Block块传输完成。客户端则会再次请求NameNode上传第二个Block块和第三块到服务器上，重复上面的步骤，直到3个Block都上传完毕。

2. HDFS读数据原理

从HDFS中查找数据，即为Read（读）数据。

1) 客户端向NameNode发起RPC请求，来获取请求文件Block数据块所在的位置。

2) NameNode检测元数据文件，会视情况返回Block块信息或者全部Block块信息，对于每个Block块，NameNode都会返回含有该Block副本的DataNode地址。

3) 客户端会选取排序靠前的DataNode来依次读取Block块，每一个Block都会进行CheckSum若文件不完整，则客户端会继续向NameNode获取下一批的Block列表，直到验证读取出来文件是完整的，则Block读取完毕。

4) 客户端会把最终读取出来所有的Block块合并成一个完整的最终文件（例如：1.txt）。