目录

  • 1 第1章 初识Hadoop
    • 1.1 大数据概述
    • 1.2 大数据应用场景
    • 1.3 Hadoop概述
    • 1.4 章节测试
  • 2 第2章  搭建Hadoop集群
    • 2.1 安装准备
    • 2.2 Hadoop集群搭建
      • 2.2.1 Hadoop单机模式安装
      • 2.2.2 伪分布式模式部署
      • 2.2.3 完全分布式模式
    • 2.3 Hadoop集群测试
    • 2.4 章节测试
  • 3 第3章 HDFS分布式文件系统
    • 3.1 HDFS的简介
    • 3.2 HDFS构架和原理
    • 3.3 HDFS的Shell操作
    • 3.4 HDFS的Java API操作
    • 3.5 章节测试
  • 4 第4章 MapReduce分成式框架
    • 4.1 MapReduce概述
    • 4.2 MapReduce工作原理
    • 4.3 Mapreduce编程组件
    • 4.4 Mapreduce运行模式
    • 4.5 MapReduce性能优化策略
    • 4.6 经典案例
    • 4.7 章节测试
  • 5 第5章 Zookeeper分布式协调服务
    • 5.1 Zookeeper的简介
    • 5.2 Zookeeper的特性
    • 5.3 Zookeeper集群角色
    • 5.4 Zookeeper的数据模型
    • 5.5 Zookeeper的Watch机制
    • 5.6 Zookeeper的选举机制
    • 5.7 Zookeeper分布式集群部署
    • 5.8 Zookeeper的Shell操作
    • 5.9 Zookeeper的Java API操作
    • 5.10 Zookeeper典型应用场景
    • 5.11 章节测试
  • 6 第6章 Hadoop2.0新特性
    • 6.1 Hadoop2.0改进与提升
    • 6.2 Yarn体系结构
    • 6.3 Yarn工作流程
    • 6.4 HDFS HA的搭建方式
    • 6.5 HDFS的高可用架构
    • 6.6 章节测试
  • 7 Hive仓库
    • 7.1 数据仓库简介
      • 7.1.1 什么是数据仓库
      • 7.1.2 数据仓库的结构
      • 7.1.3 数据仓库数据模型
    • 7.2 Hive简介
      • 7.2.1 什么是Hive
      • 7.2.2 Hive系统架构
      • 7.2.3 Hive工作原理
      • 7.2.4 Hive数据模型
    • 7.3 Hive安装
    • 7.4 Hive的管理方式
    • 7.5 Hive内置数据类型
    • 7.6 Hive数据模型操作
    • 7.7 Hive数据操作
    • 7.8 Hive章节测试
  • 8 Flume日志采集系统
    • 8.1 Flume简介
    • 8.2 Flume运行机制
    • 8.3 Flume日志采集系统架构
    • 8.4 Flume系统要求
    • 8.5 Flume安装配置
    • 8.6 Flume入门使用
    • 8.7 Flume Sources
    • 8.8 Flume Channels
    • 8.9 Flume Sinks
    • 8.10 Flume负载均衡
    • 8.11 Flume故障转移
    • 8.12 Flume拦截器
    • 8.13 案例-日志采集
    • 8.14 Flume章节测验
  • 9 工作流管理器
    • 9.1 Azkaban工作管理流
      • 9.1.1 工作流管理器概述
      • 9.1.2 Azkaban概述
      • 9.1.3 Azkaban部署
        • 9.1.3.1 Azkaban资源准备
        • 9.1.3.2 Azkaban安装配置
        • 9.1.3.3 Azkaban启动测试
      • 9.1.4 Azkaban使用
        • 9.1.4.1 Azkaban工作流相关概念
        • 9.1.4.2 案例-依赖任务调度管理
        • 9.1.4.3 案例-MapReduce任务调度管理
        • 9.1.4.4 案例-Hive脚本任务调度管理
      • 9.1.5 Azkaban章节测试
  • 10 Sqoop数据迁移
    • 10.1 Sqoop概述
    • 10.2 Sqoop安装配置
    • 10.3 Sqoop指令介绍
    • 10.4 Sqoop数据导入
    • 10.5 Sqoop数据导出
    • 10.6 sqoop章节测试
  • 11 综合项目--网站流量日志数据分析系统
    • 11.1 系统概述
    • 11.2 模块开发-数据采集
    • 11.3 模块开发-数据预处理
    • 11.4 模块开发-数据仓库开发
    • 11.5 模块开发-数据分析
    • 11.6 模块开发-数据导出
    • 11.7 模块开发-日志分析系统报表展示
大数据应用场景
  • 1 知识要点
  • 2 主题讨论

1.2 大数据应用场景


1.2.1 医疗行业的应用

大数据让就医、看病更简单。随着大数据在医疗行业的深度融合,大数据平台积累了海量的病例、病例报告、治愈方案、药物报告等信息资源,所有常见的病例、既往病例等都记录在案,医生通过有效、连续的诊疗记录,给病人提供优质、合理的诊疗方案。

1. 优化医疗方案,提供最佳治疗方法

借助于大数据平台,可以搜集不同病人的疾病特征、病例和治疗方案,从而建立医疗行业的病人分类数据库。在医生诊断病人时可以参考病人的疾病特征、化验报告和检测报告,参考疾病数据库来快速帮助病人确诊。在制定治疗方案时,医生可以依据病人的基因特点,调取相似基因、年龄、人种、身体情况相同的有效治疗方案,制定出适合病人的治疗方案,帮助更多人及时进行治疗。

2. 有效预防预测疾病

解决患者的疾病,最为简单的方式就是防患于未然。通过大数据对于群众的人体数据监控,将各自的健康数据、生命体征指标都集合在数据库和健康档案中。群众需要定期去做检查,及时更新数据,以便于通过大数据来预防和预测疾病的发生,做到早治疗、早康复

1.2.2 金融行业的应用

1. 精准营销

互联网时代的银行在互联网的冲击下,迫切的需要掌握更多用户信息,继而构建用户360度立体画像,即可对细分的客户进行精准营销、实时营销等个性化智慧营销


2. 风险管控

应用大数据平台,可以统一管理金融企业内部多源异构数据和外部征信数据,更好的完善风控体系。内部可保证数据的完整性安全性,外部可控制用户风险

3. 决策支持

通过大数据分析方法改善经营决策,为管理层提供可靠的数据支撑,从而使经营决策高效敏捷精准


4. 服务创新

通过对大数据的应用,改善与客户之间的交互增加用户粘性,为个人与政府提供增值服务,不断增强金融企业业务核心竞争力


5. 产品创新

通过高端数据分析和综合化数据分享,有效对接银行、保险、信托、基金等金融产品,使金融企业能够从其他领域借鉴并创造新的金融产品。

1.2.3 零售行业的应用

在美国零售业上有这样一个传奇故事,某家商店将纸尿裤啤酒并排放在一起销售,结果纸尿裤啤酒销量双双增长!为什么看起来风马牛不相及的两种商品搭配在一起,能取到如此惊人的效果呢?后来经过分析发现这些购买者多数是已婚男士,这些男士在为小孩买纸尿裤的同时,也会为自己买一些啤酒。发现这个秘密后,沃尔玛超市就将啤酒摆放在尿不湿旁边,顾客购买会更方便,销量自然也会大幅上升

1. 精准定位零售行业市场

企业进入或开拓某一区域零售行业市场,首先要进行项目评估和可行性分析,只有通过项目评估和可行性分析才能决定是否适合进入或者开拓这块市场。通常分析这个区域流动人口、消费水平、客户的消费习惯、市场对产品的认知度以及当前的市场供需情况等等,这些问题的背后包含的海量信息构成了零售行业市场调研的大数据,对这些大数据的分析就是零售行业市场精准定位的过程

2. 支撑行业收益管理

大数据时代的来临,为企业收益管理工作的开展提供了广阔的空间需求预测细分市场敏感度分析对数据需求量很大,而传统的数据分析大多是对企业自身的历史数据进行预测和分析,容易忽视整个零售行业信息,因此预测结果难免会存在偏差。企业在实施收益管理过程中,如果在自有的数据基础上,依靠自动化信息采集软件来收集更多的零售行业数据,以此来了解更多的市场信息,这将会对制订准确的收益策略取得更高收益起到推进作用

3. 挖掘零售行业新需求

作为零售行业企业,如果能收集网上零售行业的评论数据建立网评大数据,然后再利用分词聚类情感分析消费者的消费行为、价值取向、评论中体现的新消费需求和企业产品质量问题,以此来改进和创新产品,量化产品价值,制订合理的价格及提高服务质量,从中获取更大的收益