课程门户-章节详情

Hadoop平台部署与运维

赵建伟

1 前置知识--Linux操作系统基础
- 1.1 Linux系统认知
  - 1.1.1 Linux概述
  - 1.1.2 虚拟机简介
- 1.2 Linux系统管理
  - 1.2.1 Linux系统登录
  - 1.2.2 Linux命令基础
  - 1.2.3 Linux系统管理命令
- 1.3 Linux目录管理
  - 1.3.1 Linux目录与Windows目录区别
  - 1.3.2 Linux目录结构
  - 1.3.3 Linux系统路径
  - 1.3.4 显示路径（pwd）
  - 1.3.5 切换目录（cd）
  - 1.3.6 查看目录（ls）
  - 1.3.7 创建目录（mkdir）
  - 1.3.8 删除目录（rmdir）
- 1.4 Linux文件管理
  - 1.4.1 创建文件
  - 1.4.2 查看文件内容
  - 1.4.3 复制文件（cp）
  - 1.4.4 移动文件（mv）
  - 1.4.5 删除文件（rm）
- 1.5 目录和文件权限一般管理
  - 1.5.1 文件的属性信息
  - 1.5.2 文件的权限
  - 1.5.3 设置文件权限（chmod）
2 初识Hadoop
- 2.1 大数据概述
- 2.2 大数据的应用场景
- 2.3 Hadoop的概述
3 Hadoop集群的构建
- 3.1 安装centos7
- 3.2 安装xshell
- 3.3 设置虚拟机
  - 3.3.1 打通网络
- 3.4 安装JDK
- 3.5 安装hadoop
  - 3.5.1 配置hadoop-env.sh
  - 3.5.2 配置核心组件core-site.xml
  - 3.5.3 配置文件系统hdfs-site.xml
  - 3.5.4 配置yarn-env.sh（hadoop3不需要配置）
  - 3.5.5 配置yarn-site.xml
  - 3.5.6 配置计算框架mapred-site.xml
  - 3.5.7 配置worker
  - 3.5.8 配置hadoop启动环境变量
- 3.6 克隆虚拟机
- 3.7 配置hosts列表
- 3.8 免密登录配置
- 3.9 启动hadoop集群
  - 3.9.1 格式化master节点
- 3.10 wordcount
4 Hadoop分布式文件系统
- 4.1 HDFS的简介
  - 4.1.1 HDFS的演变
  - 4.1.2 HDFS的基本概念
  - 4.1.3 HDFS特点
- 4.2 HDFS的架构和原理
- 4.3 HDFS的Shell操作
- 4.4 HDFS的Java API操作
  - 4.4.1 实验
- 4.5 启动已有的hadoop集群
5 MapReduce分布式计算框架
- 5.1 MapReduce概述
- 5.2 wordcount实验
  - 5.2.1 pom.xml文件
  - 5.2.2 WordCount类
  - 5.2.3 WordMap类
  - 5.2.4 WordReduce类
  - 5.2.5 实验运行步骤
  - 5.2.6 实验文件
- 5.3 倒排索引实验
  - 5.3.1 InvertedIndexRunner
  - 5.3.2 InvertedIndexMapper
  - 5.3.3 InvertedIndexReducer
  - 5.3.4 InvertedIndexCombiner
6 Zookeeper分布式协调服务
- 6.1 初识Zookeeper
- 6.2 数据模型
- 6.3 Zookeeper的Watcher机制
- 6.4 Zookeeper的选举机制
- 6.5 Zookeeper集群搭建
  - 6.5.1 下载安装包
  - 6.5.2 修改zookeeper配置文件
  - 6.5.3 创建myid
  - 6.5.4 配置环境变量
  - 6.5.5 分发zookeeper相关文件
  - 6.5.6 修改主机myid
  - 6.5.7 启动zookeeper
- 6.6 shell操作
7 Hadoop2.0
- 7.1 hadoop2.0新特性
- 7.2 高可用集群搭建
  - 7.2.1 准备安装包
  - 7.2.2 安装虚拟机
  - 7.2.3 安装JDK
  - 7.2.4 安装zookeeper
  - 7.2.5 安装hadoop
    - 7.2.5.1 core-site.xml
    - 7.2.5.2 hadoop-env.sh
    - 7.2.5.3 hdfs-site.xml
    - 7.2.5.4 workers
    - 7.2.5.5 mapred-site.xml
    - 7.2.5.6 yarn-site.xml
  - 7.2.6 配置hosts列表
  - 7.2.7 克隆虚拟机
  - 7.2.8 设置免密登录
  - 7.2.9 设置hostname
  - 7.2.10 修改zookeeper的myid
  - 7.2.11 启动zookeeper集群
  - 7.2.12 journalnode共享存储
  - 7.2.13 设置时钟同步(暂时不设置)
  - 7.2.14 启动集群
  - 7.2.15 验证ha故障自动转移
8 Hive数据仓库
- 8.1 hive简介
- 8.2 hadoop伪分布式安装
- 8.3 hive实验
  - 8.3.1 嵌入模式
  - 8.3.2 本地模式
    - 8.3.2.1 mysql离线安装
    - 8.3.2.2 Mariadb安装
    - 8.3.2.3 hive安装
  - 8.3.3 远程模式
  - 8.3.4 hive相关命令
  - 8.3.5 hive动态分区
  - 8.3.6 hive桶表
9 Flume日志采集
- 9.1 flume单agent安装
- 9.2 采集到hdfs
- 9.3 多agent安装
- 9.4 日志采集案例
10 sqoop
- 10.1 sqoop安装
- 10.2 userdb.sql
- 10.3 mysql表导入HDFS
- 10.4 HDFS导出mysql
- 10.5 mysql导入hive
- 10.6 hive导出到mysql
11 网站日志流量分析
- 11.1 系统架构设计
- 11.2 使用flume搭建日志采集系统
- 11.3 数据预处理
  - 11.3.1 新建weblog项目
  - 11.3.2 pom.xml
  - 11.3.3 WebLogBean
  - 11.3.4 WeblogPreProcess
  - 11.3.5 WebLogParser
  - 11.3.6 使用maven打包项目
- 11.4 数据仓库开发
  - 11.4.1 搭建hive数据仓库
  - 11.4.2 实现数据仓库
  - 11.4.3 数据分析
  - 11.4.4 数据导出
  - 11.4.5 数据展示
12 复习
- 12.1 课后习题
13 软件下载
- 13.1 常用软件

多agent安装

首先启动hadoop集群三个节点。master用来汇聚日志，slave1，slave2用来采集日志

1、master主机下载安装包：

http://archive.apache.org/dist/flume/1.8.0/

2、创建flume文件夹

mkdir /flume

3、上传安装包到flume文件夹下

cd /flume

解压：tar -xzf apache-flume-1.8.0-bin.tar.gz

4、flume-env.sh环境变量配置

cd /flume/apache-flume-1.8.0-bin/conf

创建配置文件

cp flume-env.sh.template flume-env.sh

编辑配置文件

vi flume-env.sh

在flume-env.sh中添加

export JAVA_HOME=/usr/java/jdk1.8.0_221

5、配置flume文件系统环境变量

vi /etc/profile

在最后两行添加

export FLUME_HOME=/flume/apache-flume-1.8.0-bin

export PATH=$PATH:$FLUME_HOME/bin

使环境变量立即生效

source /etc/profile

6、将创建好的配置远程复制到slave1、slave2节点

（1）复制安装包

scp -r /flume/ root@slave1:/

scp -r /flume/ root@slave2:/

（2）复制环境变量

scp -r /etc/profile root@slave1:/etc/

scp -r /etc/profile root@slave2:/etc/

（3）到slave1、slave2执行source命令

source /etc/profile

7、slave1、slave2创建日志文件

（1）slave1执行：

mkdir /flume/logs

cd /flume/logs

vi access.log 添加内容：slave1 access.log

vi nginx.log 添加内容：slave1 nginx.log

vi web.log 添加内容：slave1 web.log

（2）slave2执行：

mkdir /flume/logs

cd /flume/logs

vi access.log 添加内容：slave2 access.log

vi nginx.log 添加内容：slave2 nginx.log

vi web.log 添加内容：slave2 web.log

8、master、slave1、slave2创建采集日志配置文件

（1）slave1配置文件：

cd /flume/apache-flume-1.8.0-bin/conf

vi flume-conf.properties

添加内容如下：

#命名

a1.sources = r1 r2 r3

a1.sinks = k1

a1.channels = c1

#资源1

a1.sources.r1.type = exec

a1.sources.r1.command = tail -F /flume/logs/access.log

a1.sources.r1.channels = c1

#由于3个资源同时发送给node03，node03不认识都是哪个路径资源发送的，所以需要拦截器，标识一下

a1.sources.r1.interceptors = i1

a1.sources.r1.interceptors.i1.type = static

a1.sources.r1.interceptors.i1.key = key

a1.sources.r1.interceptors.i1.value = access_log

#资源2

a1.sources.r2.type = exec

a1.sources.r2.command = tail -F /flume/logs/nginx.log

a1.sources.r2.channels = c1

#拦截器

a1.sources.r2.interceptors = i2

a1.sources.r2.interceptors.i2.type = static

a1.sources.r2.interceptors.i2.key = key

a1.sources.r2.interceptors.i2.value = nginx_log

#资源3

a1.sources.r3.type = exec

a1.sources.r3.command = tail -F /flume/logs/web.log

a1.sources.r3.channels = c1

#拦截器

a1.sources.r3.interceptors = i3

a1.sources.r3.interceptors.i3.type = static

a1.sources.r3.interceptors.i3.key = key

a1.sources.r3.interceptors.i3.value = web_log

#sink

a1.sinks.k1.type = avro

a1.sinks.k1.channel = c1

a1.sinks.k1.hostname = master

a1.sinks.k1.port = 41414

#channel

a1.channels.c1.type = memory

a1.channels.c1.capacity = 10000

a1.channels.c1.transactionCapacity = 1000

a1.channels.c1.byteCapacityBufferPercentage = 20

a1.channels.c1.byteCapacity = 800000

（2）将slave1的采集配置文件远程复制到slave2

scp -r /flume/apache-flume-1.8.0-bin/conf/flume-conf.properties root@slave2:/flume/apache-flume-1.8.0-bin/conf/

（3）创建master采集配置文件

cd /flume/apache-flume-1.8.0-bin/conf

vi flume-conf.properties

添加内容如下:

#命名

a1.sources = r1

a1.channels = c1

a1.sinks = k1

#资源

a1.sources.r1.type = avro

a1.sources.r1.channels = c1

a1.sources.r1.bind = 192.168.1.4

a1.sources.r1.port = 41414

#定义通道

a1.channels.c1.type = memory

a1.channels.c1.capacity = 10000

a1.channels.c1.transactionCapacity = 10000

a1.channels.c1.byteCapacityBufferPercentage = 20

a1.channels.c1.byteCapacity = 800000

#定义sink

a1.sinks.k1.type = hdfs

a1.sinks.k1.channel = c1

a1.sinks.k1.hdfs.path =hdfs://192.168.1.4:9000/flume/logs/%{key}/%y-%m-%d/

a1.sinks.k1.hdfs.filePrefix = events-

a1.sinks.k1.hdfs.round = true

a1.sinks.k1.hdfs.useLocalTimeStamp = true

a1.sinks.k1.hdfs.roundValue = 10

a1.sinks.k1.hdfs.roundUnit = minute

a1.sinks.k1.hdfs.fileType = DataStream

a1.sinks.k1.hdfs.writeFormat = Text

9、master、slave1、slave2启动flume agent

三个节点分别执行：

flume-ng agent --conf conf --conf-file /flume/apache-flume-1.8.0-bin/conf/flume-conf.properties --name a1 -Dflume.root.logger=INFO,console

10、查看日志采集结果

在crt中新开启一个 192.168.1.4窗口

查看hdfs上产生文件路径：hadoop fs -lsr /

查看文件内容：hadoop fs -cat /文件路径

图片预览