目录

  • 1 第1章 初识Hadoop
    • 1.1 大数据概述
    • 1.2 大数据应用场景
    • 1.3 Hadoop概述
    • 1.4 章节测试
  • 2 第2章  搭建Hadoop集群
    • 2.1 安装准备
    • 2.2 Hadoop集群搭建
      • 2.2.1 Hadoop单机模式安装
      • 2.2.2 伪分布式模式部署
      • 2.2.3 完全分布式模式
    • 2.3 Hadoop集群测试
    • 2.4 章节测试
  • 3 第3章 HDFS分布式文件系统
    • 3.1 HDFS的简介
    • 3.2 HDFS构架和原理
    • 3.3 HDFS的Shell操作
    • 3.4 HDFS的Java API操作
    • 3.5 章节测试
  • 4 第4章 MapReduce分成式框架
    • 4.1 MapReduce概述
    • 4.2 MapReduce工作原理
    • 4.3 Mapreduce编程组件
    • 4.4 Mapreduce运行模式
    • 4.5 MapReduce性能优化策略
    • 4.6 经典案例
    • 4.7 章节测试
  • 5 第5章 Zookeeper分布式协调服务
    • 5.1 Zookeeper的简介
    • 5.2 Zookeeper的特性
    • 5.3 Zookeeper集群角色
    • 5.4 Zookeeper的数据模型
    • 5.5 Zookeeper的Watch机制
    • 5.6 Zookeeper的选举机制
    • 5.7 Zookeeper分布式集群部署
    • 5.8 Zookeeper的Shell操作
    • 5.9 Zookeeper的Java API操作
    • 5.10 Zookeeper典型应用场景
    • 5.11 章节测试
  • 6 第6章 Hadoop2.0新特性
    • 6.1 Hadoop2.0改进与提升
    • 6.2 Yarn体系结构
    • 6.3 Yarn工作流程
    • 6.4 HDFS HA的搭建方式
    • 6.5 HDFS的高可用架构
    • 6.6 章节测试
  • 7 Hive仓库
    • 7.1 数据仓库简介
      • 7.1.1 什么是数据仓库
      • 7.1.2 数据仓库的结构
      • 7.1.3 数据仓库数据模型
    • 7.2 Hive简介
      • 7.2.1 什么是Hive
      • 7.2.2 Hive系统架构
      • 7.2.3 Hive工作原理
      • 7.2.4 Hive数据模型
    • 7.3 Hive安装
    • 7.4 Hive的管理方式
    • 7.5 Hive内置数据类型
    • 7.6 Hive数据模型操作
    • 7.7 Hive数据操作
    • 7.8 Hive章节测试
  • 8 Flume日志采集系统
    • 8.1 Flume简介
    • 8.2 Flume运行机制
    • 8.3 Flume日志采集系统架构
    • 8.4 Flume系统要求
    • 8.5 Flume安装配置
    • 8.6 Flume入门使用
    • 8.7 Flume Sources
    • 8.8 Flume Channels
    • 8.9 Flume Sinks
    • 8.10 Flume负载均衡
    • 8.11 Flume故障转移
    • 8.12 Flume拦截器
    • 8.13 案例-日志采集
    • 8.14 Flume章节测验
  • 9 工作流管理器
    • 9.1 Azkaban工作管理流
      • 9.1.1 工作流管理器概述
      • 9.1.2 Azkaban概述
      • 9.1.3 Azkaban部署
        • 9.1.3.1 Azkaban资源准备
        • 9.1.3.2 Azkaban安装配置
        • 9.1.3.3 Azkaban启动测试
      • 9.1.4 Azkaban使用
        • 9.1.4.1 Azkaban工作流相关概念
        • 9.1.4.2 案例-依赖任务调度管理
        • 9.1.4.3 案例-MapReduce任务调度管理
        • 9.1.4.4 案例-Hive脚本任务调度管理
      • 9.1.5 Azkaban章节测试
  • 10 Sqoop数据迁移
    • 10.1 Sqoop概述
    • 10.2 Sqoop安装配置
    • 10.3 Sqoop指令介绍
    • 10.4 Sqoop数据导入
    • 10.5 Sqoop数据导出
    • 10.6 sqoop章节测试
  • 11 综合项目--网站流量日志数据分析系统
    • 11.1 系统概述
    • 11.2 模块开发-数据采集
    • 11.3 模块开发-数据预处理
    • 11.4 模块开发-数据仓库开发
    • 11.5 模块开发-数据分析
    • 11.6 模块开发-数据导出
    • 11.7 模块开发-日志分析系统报表展示
大数据概述
  • 1 知识要点
  • 2 知识测试
  • 3 主题讨论

1.1 初识大数据


随着近几年计算机技术和互联网的发展,“大数据”这个词被提及的越来越频繁。与此同时,大数据的快速发展也在无时无刻影响着我们的生活。例如,医疗方面,大数据能够帮助医生预测疾病;电商方面,大数据能够向顾客个性化推荐商品;交通方面,大数据会帮助人们选择最佳出行方案

Hadoop作为一个能够对大量数据进行分布式处理的软件框架,用户可以利用Hadoop生态体系开发和处理海量数据。由于Hadoop有可靠及高效的处理性能,使得它逐渐成为分析大数据领先平台

1.1.1 什么是大数据

     

 

最早提出“大数据”这一概念的是全球知名咨询公司麦肯锡,他是这样定义大数据的:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合具有海量的数据规模、快速的数据流转、多样的数据类型以及价值密度四大特征

研究机构Gartner是这样定义大数据的:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流转优化能力来适应海量、高增长率和多样化的信息资产

大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。


1.1.2 大数据的特征


        大数据主要具有以下四个方面的典型特征,即大量(Volume)、多样(Varity)、高速(Velocity)和价值(Value),即所谓的“4V”。

    


1.1.3 研究大数据的意义


有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在于“”,而在于“有用”。数据的价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据,发掘其潜在价值,才是赢得核心竞争力的关键。

研究大数据,最重要的意义是预测。因为数据从根本上讲,是对过去和现在的归纳和总结,其本身不具备趋势和方向性的特征,但是我们可以应用大数据去了解事物发展的客观规律、了解人类行为,并且能够帮助我们改变过去的思维方式,建立新的数据思维模型,从而对未来进行预测和推测。知名互联网公司谷歌对其用户每天频繁搜索的词汇进行数据挖掘,从而进行相关的广告推广商业研究