课程门户-章节详情

Hadoop平台部署与运维

赵建伟

1 前置知识--Linux操作系统基础
- 1.1 Linux系统认知
  - 1.1.1 Linux概述
  - 1.1.2 虚拟机简介
- 1.2 Linux系统管理
  - 1.2.1 Linux系统登录
  - 1.2.2 Linux命令基础
  - 1.2.3 Linux系统管理命令
- 1.3 Linux目录管理
  - 1.3.1 Linux目录与Windows目录区别
  - 1.3.2 Linux目录结构
  - 1.3.3 Linux系统路径
  - 1.3.4 显示路径（pwd）
  - 1.3.5 切换目录（cd）
  - 1.3.6 查看目录（ls）
  - 1.3.7 创建目录（mkdir）
  - 1.3.8 删除目录（rmdir）
- 1.4 Linux文件管理
  - 1.4.1 创建文件
  - 1.4.2 查看文件内容
  - 1.4.3 复制文件（cp）
  - 1.4.4 移动文件（mv）
  - 1.4.5 删除文件（rm）
- 1.5 目录和文件权限一般管理
  - 1.5.1 文件的属性信息
  - 1.5.2 文件的权限
  - 1.5.3 设置文件权限（chmod）
2 初识Hadoop
- 2.1 大数据概述
- 2.2 大数据的应用场景
- 2.3 Hadoop的概述
3 Hadoop集群的构建
- 3.1 安装centos7
- 3.2 安装xshell
- 3.3 设置虚拟机
  - 3.3.1 打通网络
- 3.4 安装JDK
- 3.5 安装hadoop
  - 3.5.1 配置hadoop-env.sh
  - 3.5.2 配置核心组件core-site.xml
  - 3.5.3 配置文件系统hdfs-site.xml
  - 3.5.4 配置yarn-env.sh（hadoop3不需要配置）
  - 3.5.5 配置yarn-site.xml
  - 3.5.6 配置计算框架mapred-site.xml
  - 3.5.7 配置worker
  - 3.5.8 配置hadoop启动环境变量
- 3.6 克隆虚拟机
- 3.7 配置hosts列表
- 3.8 免密登录配置
- 3.9 启动hadoop集群
  - 3.9.1 格式化master节点
- 3.10 wordcount
4 Hadoop分布式文件系统
- 4.1 HDFS的简介
  - 4.1.1 HDFS的演变
  - 4.1.2 HDFS的基本概念
  - 4.1.3 HDFS特点
- 4.2 HDFS的架构和原理
- 4.3 HDFS的Shell操作
- 4.4 HDFS的Java API操作
  - 4.4.1 实验
- 4.5 启动已有的hadoop集群
5 MapReduce分布式计算框架
- 5.1 MapReduce概述
- 5.2 wordcount实验
  - 5.2.1 pom.xml文件
  - 5.2.2 WordCount类
  - 5.2.3 WordMap类
  - 5.2.4 WordReduce类
  - 5.2.5 实验运行步骤
  - 5.2.6 实验文件
- 5.3 倒排索引实验
  - 5.3.1 InvertedIndexRunner
  - 5.3.2 InvertedIndexMapper
  - 5.3.3 InvertedIndexReducer
  - 5.3.4 InvertedIndexCombiner
6 Zookeeper分布式协调服务
- 6.1 初识Zookeeper
- 6.2 数据模型
- 6.3 Zookeeper的Watcher机制
- 6.4 Zookeeper的选举机制
- 6.5 Zookeeper集群搭建
  - 6.5.1 下载安装包
  - 6.5.2 修改zookeeper配置文件
  - 6.5.3 创建myid
  - 6.5.4 配置环境变量
  - 6.5.5 分发zookeeper相关文件
  - 6.5.6 修改主机myid
  - 6.5.7 启动zookeeper
- 6.6 shell操作
7 Hadoop2.0
- 7.1 hadoop2.0新特性
- 7.2 高可用集群搭建
  - 7.2.1 准备安装包
  - 7.2.2 安装虚拟机
  - 7.2.3 安装JDK
  - 7.2.4 安装zookeeper
  - 7.2.5 安装hadoop
    - 7.2.5.1 core-site.xml
    - 7.2.5.2 hadoop-env.sh
    - 7.2.5.3 hdfs-site.xml
    - 7.2.5.4 workers
    - 7.2.5.5 mapred-site.xml
    - 7.2.5.6 yarn-site.xml
  - 7.2.6 配置hosts列表
  - 7.2.7 克隆虚拟机
  - 7.2.8 设置免密登录
  - 7.2.9 设置hostname
  - 7.2.10 修改zookeeper的myid
  - 7.2.11 启动zookeeper集群
  - 7.2.12 journalnode共享存储
  - 7.2.13 设置时钟同步(暂时不设置)
  - 7.2.14 启动集群
  - 7.2.15 验证ha故障自动转移
8 Hive数据仓库
- 8.1 hive简介
- 8.2 hadoop伪分布式安装
- 8.3 hive实验
  - 8.3.1 嵌入模式
  - 8.3.2 本地模式
    - 8.3.2.1 mysql离线安装
    - 8.3.2.2 Mariadb安装
    - 8.3.2.3 hive安装
  - 8.3.3 远程模式
  - 8.3.4 hive相关命令
  - 8.3.5 hive动态分区
  - 8.3.6 hive桶表
9 Flume日志采集
- 9.1 flume单agent安装
- 9.2 采集到hdfs
- 9.3 多agent安装
- 9.4 日志采集案例
10 sqoop
- 10.1 sqoop安装
- 10.2 userdb.sql
- 10.3 mysql表导入HDFS
- 10.4 HDFS导出mysql
- 10.5 mysql导入hive
- 10.6 hive导出到mysql
11 网站日志流量分析
- 11.1 系统架构设计
- 11.2 使用flume搭建日志采集系统
- 11.3 数据预处理
  - 11.3.1 新建weblog项目
  - 11.3.2 pom.xml
  - 11.3.3 WebLogBean
  - 11.3.4 WeblogPreProcess
  - 11.3.5 WebLogParser
  - 11.3.6 使用maven打包项目
- 11.4 数据仓库开发
  - 11.4.1 搭建hive数据仓库
  - 11.4.2 实现数据仓库
  - 11.4.3 数据分析
  - 11.4.4 数据导出
  - 11.4.5 数据展示
12 复习
- 12.1 课后习题
13 软件下载
- 13.1 常用软件

hadoop伪分布式安装

1、下载安装包

2、上传压缩包至hadoop目录

mkdir /hadoop

cd /hadoop

使用xftp上传安装包

3、解压

tar -xzf hadoop-3.3.1.tar.gz

4、配置core-site.xml，在configuration中添加以下内容

（1）创建存放数据的目录文件夹mkdir /hadoop/hadoopdata

（2）vi /hadoop/hadoop-3.3.1/etc/hadoop/core-site.xml

<name>hadoop.tmp.dir</name>

<value>file:/hadoop/hadoopdata</value>

</property>

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>

</property>

5、配置hdfs-site.xml，在configuration中添加以下内容

vi /hadoop/hadoop-3.3.1/etc/hadoop/hdfs-site.xml

<name>dfs.replication</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>file:/hadoop/hadoopdata/dfs/name</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>file:/hadoop/hadoopdata/dfs/data</value>

</property>

6、配置hadoop-env.sh

使用$JAVA_HOME获取jdk安装路径，复制安装路径到hadoop-env.sh中的JAVA_HOME

vi /hadoop/hadoop-3.3.1/etc/hadoop/hadoop-env.sh

7、配置yarn-site.xml，在configuration中添加以下内容

vi /hadoop/hadoop-3.3.1/etc/hadoop/yarn-site.xml

<name>yarn.scheduler.minimum-allocation-mb</name>

</property>

<name>yarn.scheduler.maximum-allocation-mb</name>

</property>

<name>yarn.nodemanager.resource.memory-mb</name>

</property>

<name>yarn.nodemanager.pmem-check-enabled</name>

</property>

<name>yarn.nodemanager.vmem-check-enabled</name>

<value>false</value>

</property>

8、配置环境变量

vi /etc/profile

添加以下内容：

export HADOOP_HOME=/hadoop/hadoop-3.3.1

export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

export HDFS_NAMENODE_USER=root

export HDFS_DATANODE_USER=root

export HDFS_SECONDARYNAMENODE_USER=root

export YARN_RESOURCEMANAGER_USER=root

export YARN_NODEMANAGER_USER=root

执行环境变量立即生效 source /etc/profile

9、设置免密登录

ssh-copy-id master

10、启动hadoop伪分布式

hdfs namenode -format

start-dfs.sh

图片预览