课程门户-章节详情

机器学习技术（Python与机器学习技术）

谢赞福

1 模块一 Python与机器学习概述
- 1.1 Python与机器学习简介
- 1.2 发展历程
- 1.3 基本语法
- 1.4 帮助
- 1.5 应用
- 1.6 示例源代码（食品识别小小专家系统）
- 1.7 示例代码蜡笔小新
- 1.8 小结
- 1.9 Python基础教程（教&学资料）
  - 1.9.1 安装Python
  - 1.9.2 第一个python程序
  - 1.9.3 Python基础
  - 1.9.4 函数
  - 1.9.5 高级特性
  - 1.9.6 函数式编程
  - 1.9.7 模块
  - 1.9.8 面向对象编程
  - 1.9.9 面向对象高级编程
  - 1.9.10 错误、调试和测试
  - 1.9.11 IO编程
  - 1.9.12 进程和线程
  - 1.9.13 正则表达式
  - 1.9.14 常用内建模块
  - 1.9.15 常用第三方模块
  - 1.9.16 图形界面
  - 1.9.17 网络编程
  - 1.9.18 电子邮件
  - 1.9.19 访问数据库
  - 1.9.20 Web开发
  - 1.9.21 异步IO
  - 1.9.22 使用MicroPython
  - 1.9.23 实战训练（day1~~day10)
    - 1.9.23.1 Day 1 - 搭建开发环境
    - 1.9.23.2 Day 2 - 编写Web App骨架
    - 1.9.23.3 Day 3 - 编写ORM
    - 1.9.23.4 Day 4 - 编写Model
    - 1.9.23.5 Day 5 - 编写Web框架
    - 1.9.23.6 Day 6 - 编写配置文件
    - 1.9.23.7 Day 7 - 编写MVC
    - 1.9.23.8 Day 8 - 构建前端
    - 1.9.23.9 Day 9 - 编写API
    - 1.9.23.10 Day 10 - 用户注册和登录
  - 1.9.24 Day 11 - 编写日志创建页
  - 1.9.25 Day 12 - 编写日志列表页
  - 1.9.26 Day 13 - 提升开发效率
  - 1.9.27 Day 14 - 完成Web App
  - 1.9.28 Day 15 - 部署Web App
  - 1.9.29 Day 16 - 编写移动App
- 1.10 FAQ
- 1.11 阶段总结
2 PYthon程序示例
- 2.1 程序示例（一）初识程序
- 2.2 程序示例（二）查看今天是今年的第几天
- 2.3 程序示例（三）if elif else语句
- 2.4 程序示例（四）元组，列表，堆栈，队列
- 2.5 程序示例（五）学玩游戏《学色彩神魔三龟玩变色》
- 2.6 程序示例（六）函数
- 2.7 程序示例（七）字符串
- 2.8 程序示例（八）文件
- 2.9 程序示例（九）排序
- 2.10 程序示例-机器学习中英单词翻译小专家
- 2.11 程序示例画花朵 & 画佩奇
- 2.12 程序示例华夏时钟
- 2.13 示例: 显示图片，响声
- 2.14 播放声音视频文件mp3、wmv、wav、m4a等）
- 2.15 Python WEB开发技术实战
3 模块2 NumPy数值计算
- 3.1 ndarray创建与索引
- 3.2 ndarray的基础操作
- 3.3 ufunc
- 3.4 小结
- 3.5 习题与实训
4 模块3 pandas基础
- 4.1 pandas常用类
- 4.2 DataFrame基础操作
- 4.3 其他数据类型操作
- 4.4 小结
- 4.5 习题与实训
- 4.6 练习题
5 模块4 pandas进阶
- 5.1 数据读取与写出
- 5.2 DataFrame进阶
- 5.3 数据准备
- 5.4 小结
- 5.5 习题与实训
- 5.6 练习习题及解答（参考）
6 模块5 Matplotlib基础绘图
- 6.1 Matplotlib绘图基础
- 6.2 分析特征关系常用图形
- 6.3 分析特征内部数据状态常用图形
- 6.4 小结
- 6.5 习题与实训
7 模块6 机器学习库 scikit-learn
- 7.1 数据准备
- 7.2 降维
- 7.3 分类
- 7.4 回归
- 7.5 聚类
- 7.6 模型选择
- 7.7 小结
- 7.8 习题与实训
8 模块7 餐饮企业综合分析
- 8.1 （案例）餐饮企业分析需求
- 8.2 数据准备
- 8.3 使用K-means算法进行客户价值分析
- 8.4 使用决策树算法实现餐饮客户流失预测
- 8.5 小结
- 8.6 习题与实训
9 模块8 通信运营商客户流失分析与预测
- 9.1 通信运营商客户流失分析需求
- 9.2 数据准备
- 9.3 特征工程
- 9.4 使用多层感知器算法实现通信运营商客户流失预测
- 9.5 小结
- 9.6 习题与实训
10 学习参考资源
- 10.1 机器学习的通俗讲解
- 10.2 十大机器学习算法及其应用
- 10.3 常用机器学习算法优缺点及其应用领域
- 10.4 轻松学会 Python turtle 绘图
- 10.5 Python 习题库
  - 10.5.1 习题1
- 10.6 上机操作实训库
- 10.7 面试准备题
- 10.8 Python 程序扩展名及发布程序时的选择
- 10.9 计算机Python考试大纲
- 10.10 Python 基础知识点梳理
- 10.11 Python常用模块大全
- 10.12 机器学习基本术语
- 10.13 几个机器学习的成功案例
- 10.14 60个机器学习算法应用场景实例
11 章节测验（必测）
- 11.1 测验一
- 11.2 测验二
- 11.3 测验三
- 11.4 测验四
- 11.5 测验五
- 11.6 测验六
- 11.7 测验七
- 11.8 测验八
- 11.9 测验九
- 11.10 测验十
- 11.11 编程专项测验
- 11.12 填空题专项测验
- 11.13 判断题专项测试
- 11.14 简答题专项测试
- 11.15 《机器学习技术》总复习
- 11.16 书本－－习题参考解答
12 综合实训项目及展示
- 12.1 项目（一）作品展示（1）
- 12.2 项目（一）作品展示（2）
- 12.3 团队项目实训（必作！）

60个机器学习算法应用场景实例

60个机器学习算法应用场景实例

整理了60个机器学习算法应用场景实例，含分类算法应用场景20个、回归算法应用场景20个、聚类算法应用场景10个以及关联规则应用场景10个。包含了天池、DataCastle、DataFountain中所有竞赛场景。

1 分类算法应用场景实例

1.1 O2O优惠券使用预测

1.2 市民出行选乘公交预测

1.3待测微生物种类判别

1.4 基于运营商数据的个人征信评估

1.5 商品图片分类

1.6 广告点击行为预测

1.7 基于文本内容的垃圾短信识别

1.8 中文句子类别精准分析

1.9 P2P网络借贷平台的经营风险量化分析

1.10 国家电网客户用电异常行为分析

1.11 自动驾驶场景中的交通标志检测

1.12 大数据精准营销中搜狗用户画像挖掘

1.13 基于视角的领域情感分析

1.14 监控场景下的行人精细化识别

1.15 用户评分预测

1.16 猫狗识别大战

1.17 微额借款用户人品预测

1.18 验证码识别

1.19 客户流失率预测

1.20 汽车4S店邮件营销方案

2回归算法应用场景实例

2.1 机场客流量分布预测

2.2 音乐流行趋势预测

2.3 需求预测与仓储规划方案

2.4 新浪微博互动量预测

2.5 货币基金资金流入流出预测

2.6 电影票房预测

2.7 农产品价格预测分析

2.8 基于多源数据的青藏高原湖泊面积预测

2.9 微博传播规模和传播深度预测

2.10 鲍鱼年龄预测

2.11 学生成绩排名预测

2.12 网约车出行流量预测

2.13 红酒品质评分

2.14搜索引擎的搜索量和股价波动

2.15 中国人口增长分析

2.16 农村居民收入增长预测

2.17 房地产销售影响因素分析

2.18 股价走势预测

2.19 全国综合运输总量预测

2.20 地震预报

3聚类算法应用场景实例

3.1 基于用户位置信息的商业选址

3.2 中文地址标准化处理

3.3 国家电网用户画像

3.4 非人恶意流量识别

3.5 求职信息完善

3.6 搜索引擎查询聚类以进行流量推荐

3.7 生物种群固有结构认知

3.8 保险投保者分组

3.9 网站关键词来源聚类整和

3.10 图像分割

4关联规则应用场景实例

4.1 穿衣搭配推荐

4.2 互联网情绪指标和生猪价格的关联关系挖掘和预测

4.3 依据用户轨迹的商户精准营销

4.4 地点推荐系统

4.5 气象关联分析

4.6 交通事故成因分析

4.7 基于兴趣的实时新闻推荐

4.8 银行金融客户交叉销售分析

4.9 电子商务搭配购买推荐

4.10 银行营销方案推荐

1 分类算法应用场景实例

1.1 O2O优惠券使用预测

以优惠券盘活老用户或吸引新客户进店消费是O2O的一种重要营销方式。然而随机投放的优惠券对多数用户造成无意义的干扰。对商家而言，滥发的优惠券可能降低品牌声誉，同时难以估算营销成本。个性化投放是提高优惠券核销率的重要技术，它可以让具有一定偏好的消费者得到真正的实惠，同时赋予商家更强的营销能力。

现有O2O场景相关的丰富数据，希望通过分析建模，精准预测用户是否会在规定时间内使用相应优惠券。

1.2 市民出行选乘公交预测

基于海量公交数据记录，希望挖掘市民在公共交通中的行为模式。以市民出行公交线路选乘预测为方向，期望通过分析广东省部分公交线路的历史公交卡交易数据，挖掘固定人群在公共交通中的行为模式，分析推测乘客的出行习惯和偏好，从而建立模型预测人们在未来一周内将会搭乘哪些公交线路，为广大乘客提供信息对称、安全舒适的出行环境，用数据引领未来城市智慧出行。

1.3待测微生物种类判别

DNA是多数生物的遗传物质，DNA上的碱基（A，T，C和G）就储藏了遗传信息，不同物种的DNA序列在序列长度和碱基组成上差异显著。所以我们能够通过DNA序列的比较分析，来判断DNA序列是来自哪些物种。由于测序技术限制，我们只能得到一定长度的DNA序列片段。通过DNA序列片段与已知的微生物DNA序列进行比较，可以确定DNA片段的来源微生物，进而确定待测微生物种类。

期望在相关数据基础上，建立分析方法，在计算资源消耗尽量小的情况下，尽可能快地给出准确的结果，以满足临床诊断需求。

1.4 基于运营商数据的个人征信评估

运营商作为网络服务供应商，积累了大量的用户基本信息及行为特征数据，如终端数据、套餐消费数据、通信数据等等。实名制政策保证了运营商用户数据能与用户真实身份匹配，并真实客观的反映用户行为。广泛覆盖的网络基础设施提供了积累大量实时数据的条件，这些用户数据实时反馈着用户的各个维度的信息及特征。

在我国，个人征信评估主要通过引用央行个人征信报告，但对于很多用户没有建立个人信用记录的用户，金融机构想要了解他们的信用记录成本又较高，传统征信评估手段难以满足目前多种多样的新兴需求。金融业务不同于其他大数据业务，对数据的真实性、可信度和时效性要求较高，而这正是运营商数据的价值所在。

期望利用运营商用户数据，提供完善的个人征信评估。

1.5 商品图片分类

京东含有数以百万计的商品图片，“拍照购”“找同款”等应用必须对用户提供的商品图片进行分类。同时，提取商品图像特征，可以提供给推荐、广告等系统，提高推荐/广告的效果。

希望通过对图像数据进行学习，以达到对图像进行分类划分的目的。

1.6 广告点击行为预测

用户在上网浏览过程中，可能产生广告曝光或点击行为。对广告点击进行预测，可以指导广告主进行定向广告投放和优化，使广告投入产生最大回报。

希望基于100万名随机用户在六个月的时间范围内广告曝光和点击日志，包括广告监测点数据，预测每个用户在8天内是否会在各监测点上发生点击行为。

1.7 基于文本内容的垃圾短信识别

垃圾短信已日益成为困扰运营商和手机用户的难题，严重影响到人们正常生活、侵害到运营商的社会形象以及危害着社会稳定。而不法分子运用科技手段不断更新垃圾短信形式且传播途径非常广泛，传统的基于策略、关键词等过滤的效果有限，很多垃圾短信“逃脱”过滤，继续到达手机终端。

希望基于短信文本内容，结合机器学习算法、大数据分析挖掘来智能地识别垃圾短信及其变种。

1.8 中文句子类别精准分析

精确的语义分析是大数据必备技术，在分析句子时，不同句子类别即使用类似的关键词，表达的含义仍有很大差别，特别是在情感判断中。

希望通过新闻以及微博等文本数据，对其句子类别进行判断。

1.9 P2P网络借贷平台的经营风险量化分析

P2P网络借贷即点对点信贷，其风险情况始终触碰着投资人的神经。据网贷之家统计，截止今年9月份，出现问题的网贷平台一共有1008家，而仅仅今年就有641家平台出现问题，这说明了随着我国p2p行业的迅猛发展，P2P平台的风险预测已经成为一个至关重要的问题。P2P平台的风险主要是在运营过程中产生的，与运营数据有着密不可分的关系。P2P平台的风险预测并非无线索可寻，像借款期限和年化收益率等指标，就对P2P平台的风险预测有很重要的参考意义。

希望通过互联网数据，构建出P2P网贷平台的经营风险模型，从而能够比较准确的预测P2P网贷平台的经营风险，促进我国P2P行业向正规化方向发展。

1.10 国家电网客户用电异常行为分析

社会经济的发展使得社会用电量逐年增加，受利益驱使，窃电现象也日益严重。窃电行为不仅给供电企业造成了重大经济损失，也严重影响了正常的供用电秩序。根据国家电网公司统计，近年因窃电导致的损失达上千万元。近年来，窃电方式也由野蛮窃电发展到设备智能化、手段专业化、行为隐蔽化、实施规模化的高科技窃电，给反窃电工作进一步增加了很大的难度。随着电力系统升级，智能电力设备的普及，国家电网公司可以实时收集海量的用户用电行为数据、电力设备监测数据，因此，国家电网公司希望通过大数据分析技术，科学的开展防窃电监测分析，以提高反窃电工作效率，降低窃电行为分析的时间及成本。

希望基于国家电网公司提供的关于用户用电量、电能表停走、电流失流、计量们打开灯计量异常情况、窃电行为等相关数据，以及经过现场电工人员现场确认的窃电用户清单，希望参赛者利用大数据分析算法与技术，发现窃电用户的行为特征，形成窃电用户行为画像，准确识别窃电用户，以帮助系统更快速、准确地识别窃电用户，提高窃电监测效率，降低窃电损失。

1.11 自动驾驶场景中的交通标志检测

在自动驾驶场景中，交通标志的检测和识别对行车周围环境的理解起着至关重要的作用。例如通过检测识别限速标志来控制当前车辆的速度等；另一方面，将交通标志嵌入到高精度地图中，对定位导航也起到关键的辅助作用。交通标志的检测是一项非常有挑战的任务，精确的检测对后续识别，辅助定位导航起着决定性的作用。交通标志的种类众多，大小、角度不依，本身就很难做到精确检测，并且在真实的行车环境中，受到天气、光照等因素的影响，使得交通标志的检测更加困难。

希望机遇完全真实场景下的图片数据用于训练和测试，训练能够实际应用在自动驾驶中的识别模型。

1.12 大数据精准营销中搜狗用户画像挖掘

“物以类聚，人以群分”这句古语不仅揭示了物与人的自组织趋向，更隐含了“聚类”和“人群”之间的内在联系。在现代数字广告投放系统中，以物拟人，以物窥人，才是比任何大数据都要更大的前提。在现代广告投放系统中，多层级成体系的用户画像构建算法是实现精准广告投放的基础技术之一。其中，基于人口属性的广告定向技术是普遍适用于品牌展示广告和精准竞价广告的关键性技术。在搜索竞价广告系统中，用户通过在搜索引擎输入具体的查询词来获取相关信息。因此，用户的历史查询词与用户的基本属性及潜在需求有密切的关系。

希望基于用户历史一个月的查询词与用户的人口属性标签（包括性别、年龄、学历）做为训练数据，通过机器学习、数据挖掘技术构建分类算法来对新增用户的人口属性进行判定。

1.13 基于视角的领域情感分析

情感分析是网络舆情分析中必不可少的技术，基于视角的领域情感分析更是情感分析应用于特定领域的关键技术。在对句子进行情感分析时，站在不同的视角，同一个句子的情感倾向判断结果将有所差别。

给定一个句子，如果该句子中包含“视角”词语，则应针对这一视角进行情感分析；如果句子中包含多个“视角”词语，则应对不同的视角进行单独的情感分析；如果句子中不包含视角，则不做情感判别处理。

1.14 监控场景下的行人精细化识别

随着平安中国、平安城市的提出，视频监控被广泛应用于各种领域，这给维护社会治安带来了便捷；但同时也带来了一个问题，即海量的视频监控流使得发生突发事故后，需要耗费大量的人力物力去搜索有效信息。行人作为视频监控中的重要目标之一，若能对其进行有效的外观识别，不仅能提高视频监控工作人员的工作效率，对视频的检索、行人行为解析也具有重要意义。

希望基于监控场景下多张带有标注信息的行人图像，在定位（头部、上身、下身、脚、帽子、包）的基础上研究行人精细化识别算法，自动识别出行人图像中行人的属性特征。标注的行人属性包括性别、头发长度和上下身衣着、鞋子及包的种类和颜色，并提供图像中行人头部、上身、下身、脚、帽子、包位置的标注。

1.15 用户评分预测

个性化推荐已经成为各大电子商务网站的必备服务。准确的推荐不仅可以提高商家的产品销量，更能为顾客提供优质快速的购物体验。推荐系统发展至今，已经有许多非常优秀的推荐算法，从各种不同的角度来为电子商务大厦添砖加瓦。迄今为止，已经有不少研究表明，用户在短期时间内会浏览相似的商品，但其兴趣可能会随时间发生些许变化。

希望通过训练带有时间标记的用户打分行为，准确地预测这些用户对其他商品的打分。

1.16 猫狗识别大战

有人说，猫与狗上千年历史的敌对状态，主要是由于在长期进化过程中迫于对生存资源进行争夺而造成的残酷竞争导致的；也有人说，是他们天生的交流方式不同导致的；今天猫狗大战开始了，为了避免被这些家伙拆房的危险，各位智慧的人类，请速来隔离高冷猫和憨厚狗。

希望从训练集里建立一个模型去识别测试集里的小狗来。

1.17 微额借款用户人品预测

互联网金融近年来异常火热，大量的资本和人才涌入这个领域发掘富藏价值。金融领域无论是投资理财还是借贷放款，风险控制永远是业务的核心基础。而在所有的互联网金融产品中，微额借款（借款金额500元~1000元）因其主要服务对象的特殊性，被公认为是风险最高的细分领域。

希望通过数据挖掘来分析”小额微贷“申请借款用户的信用状况，以分析其是否逾期。

1.18 验证码识别

使用各类验证码的训练集进行学习、编码与测试，形成验证码算法模型。

1.19 客户流失率预测

我国的移动通信行业经过了前几年的高速发展，近一段时间的发展速度逐渐缓慢下来。注册用户常常处于一种动态变化的状态，即不断有老客户离网，又不断有新客户入网。大量的低消费客户和大量老客户的离网使得移动通信公司无法快速向前发展。

希望建立客户流失模型，对新老客户进行分类。

1.20 汽车4S店邮件营销方案

直邮营销是直效行销的一种，是把传统邮件直接发送给消费者的营销方式涉及的行业主要是大型商场、大卖场、商业连锁店铺、专卖店等。一家汽车4S店，公司拥有完备的客户历史消费数据库，现公司准备举办一次高端品牌汽车的促销活动，为配合这次促销活动，公司计划为潜在客户寄去一份精美的汽车销售材料并附带一份小礼品。由于资源有限，公司仅有1000份材料和礼品的预算额度。

希望根据与这次促销活动类似的已经举办过的促销活动的历史消费数据，用过机器学习算法得到一个分类器，对新客户进行分类，生成正类客户的客户列表，向他们寄出材料和礼品。

2回归算法应用场景实例

2.1 机场客流量分布预测

为了有效利用机场资源，机场正利用大数据技术，提升生产运营的效率。机场内需要不断提升运行效率的资源有航站楼内的各类灯光电梯设施设备、值机柜台、商铺、广告位、安检通道、登机口，航站楼外的停机位、廊桥、车辆（摆渡车、清洁车、物流车、能源车），要想提升这些资源的利用率首先需要知道未来一段时间将会有多少旅客或航班会使用这些资源，其次需要精准的调度系统来调配这些资源和安排服务人员，帮助机场提升资源利用效率，保障机场安全与服务提升。

以海量机场WiFi数据及安检登机值机数据，希望通过数据算法实现机场航站楼客流分析与预测。

2.2 音乐流行趋势预测

经过7年的发展与沉淀，目前某音乐平台拥有数百万的曲库资源，每天千万的用户活跃在平台上，拥有数亿人次的用户试听、收藏等行为。在原创艺人和作品方面，更是拥有数万的独立音乐人，每月上传上万个原创作品，形成超过几十万首曲目的原创作品库，如此庞大的数据资源库对于音乐流行趋势的把握有着极为重要的指引作用。

以某音乐平台用户的历史播放数据为基础，期望通过对艺人的试听量的预测，挖掘出即将成为潮流的艺人，从而实现对一个时间段内音乐流行趋势的准确把控。

2.3 需求预测与仓储规划方案

拥有海量的买家和卖家交易数据的情况下，利用数据挖掘技术，我们能对未来的商品需求量进行准确地预测，从而帮助商家自动化很多供应链过程中的决策。这些以大数据驱动的供应链能够帮助商家大幅降低运营成本，更精确的需求预测，能够大大地优化运营成本，降低收货时效，提升整个社会的供应链物流效率，朝智能化的供应链平台方向更加迈进一步。高质量的商品需求预测是供应链管理的基础和核心功能。

以历史一年海量买家和卖家的数据为依据，希望预测某商品在未来二周全国和区域性需求量。用数据挖掘技术和方法精准刻画商品需求的变动规律，对未来的全国和区域性需求量进行预测，同时考虑到未来的不确定性对物流成本的影响，做到全局的最优化。

2.4 新浪微博互动量预测

新浪微博作为中国最大的社交媒体平台，旨在帮助用户发布的公开内容提供快速传播互动的通道，提升内容和用户的影响力。希望能够最快找到有价值微博的方法，然后应用于平台的内容分发控制策略，对于有价值的内容可以增加曝光量，提高内容的传播互动量。对于一条原创博文而言，转发、评论、赞等互动行为能够体现出用户对于博文内容的兴趣程度，也是对博文进行分发控制的重要参考指标。

希望根据抽样用户的原创博文在发表一天后的转发、评论、赞总数，建立博文的互动模型，并预测用户后续博文在发表一天后的互动情况。

2.5 货币基金资金流入流出预测

某金融服务机构拥有大量会员并且业务场景中每天都涉及大量的资金流入和流出，面对如此庞大的用户群，资金管理压力会非常大。在既保证资金流动性风险最小，又满足日常业务运转的情况下，精准地预测资金的流入流出情况变得尤为重要。

期望能够通过用户基本信息数据、用户申购赎回数据、收益率表和银行间拆借利率等信息，对用户的申购赎回数据的把握，精准预测未来每日的资金流入流出情况。

2.6 电影票房预测

中国是全球第二大电影市场，同时也是增长最快的市场之一；随着市场的成熟，影响电影票房的因素也越来越多，包括题材、内容、导演、演员、编辑、发行方等等。因此对电影制作公司而言，依靠主观经验制作一部高票房的电影也越来越困难，而随着大数据技术的发展，借助大数据分析对电影市场进行分析，指导电影制作成为可能。

希望依据历史票房数据、影评数据、舆情数据等互联网公众数据，对电影票房进行预测。

2.7 农产品价格预测分析

农产品价格受市场影响的程度特别大，特别是受农产品的供求关系影响较大，同时价格本身又受自然条件、社会和经济条件的影响，特别是国际市场的影响。从价格本身来看，受供求、季节等发生波动，受外界各种影响比较多，这就造成了价格预测的困难。但从长期看，农产品价格随着时间的推移仍然呈现一定规律性。价格预测是大数据的精华所在，通过大量的历史数据分析，预测未来的价格走势，为决策者提供更有力的数据支持。

希望通过分析价格历史数据，对要求预测的农产品接下来固定时间的价格进行预测。并尽可能多的使用与价格有影响的其他数据以提高预测的准确率。

2.8 基于多源数据的青藏高原湖泊面积预测

全球气候变化对青藏高原的湖泊水储量有很大影响，因此精确的估计青藏高原湖泊面积变化对于研究气候变化变得很重要。海量多源异构数据和大数据处理与挖掘技术给湖泊面积变化研究带来新的解决思路；如何通过多源数据对青藏高原的湖泊面积进行预测，将大数据技术应用到全球气候变化研究中来成为一项新的挑战。

希望通过研究青藏高原湖泊面积变化的多种影响因素，构建青藏高原湖泊面积预测模型。

2.9 微博传播规模和传播深度预测

近些年，一些研究表明，一条微博发出以后，只需要观察其在之后一小段时间内的转发情况，它的传播规模便可以被预测。但是不同类型的微博会有不同的传播方式，比如明星晒一张生活状态就能得到众多粉丝的热捧，具有较大的传播广度，但是往往在传播深度上稍显不足；相比之下，一些被广泛讨论的新闻类微博往往具有较深的传播深度。也有统计结果显示，一些谣言往往会得到大规模的传播，辟谣类的消息反而得不到广泛关注。不仅如此，我们在热门微博中能看到不少正能量的信息，同时也能看到一些话题被持正反两种不同意见的人掀起讨论热潮。简而言之，微博初期的传播速度、用户关系、信息类型、内容情感等特征都是影响微博传播规模和深度的重要影响因素。

希望基于大约1-3万条微博及其它们的转发微博，结合微博用户的关注关系、微博的内容类型和情感分析以及初期的传播模式，来预测微博的传播规模和传播深度。

2.10 鲍鱼年龄预测

鲍鱼，在现代汉语中有多种含义。最常用的是指一种原始的海洋贝类，属于单壳软体动物，其只有半面外壳，壳坚厚、扁而宽，鲍鱼是中国传统的名贵食材，位居四大海味之首。直至现今，在人民大会堂举行的多次国宴及大型宴会中，鲍鱼经常榜上有名，成为中国经典国宴菜之一。被人们称为“海洋的耳朵”。和古代“用盐腌制的鱼”是两种东西。鲍鱼的优劣与年龄相关。一般来说，我们可以数鲍鱼的生长纹来确定鲍鱼的年龄，但数生长纹也是一件挺麻烦的事情。

希望利用与鲍鱼年龄有关的因素来预测鲍鱼的年龄。

2.11 学生成绩排名预测

学生的校园行为数据，可以挖掘用户作息规律、兴趣爱好等，精准地预测学生之间的相对排名。通过对这些日常行为的建模来预测学生的学业成绩，可以实现提前预警学生的异常情况，并进行适当的干预，因而对学生的培养、管理工作将会起到极其重要的作用。从某高校的某个学院随机抽取一定比例学生，提供这些学生在三个学期的图书馆进出记录、一卡通消费记录、图书馆借阅记录、以及综合成绩的相对排名。这一部分数据将作为训练数据。我们从另外的某学院随机抽取一定比例的学生，然后提供他们在三个学期的图书馆进出记录、一卡通消费记录、图书借阅记录、以及前两个学期的成绩排名。

希望通过借助大数据相关的挖掘技术和基础算法，预测第三学期的成绩排名。

2.12 网约车出行流量预测

在出行问题上，中国市场人数多、人口密度大，总体的出行频率远高于其他国家，这种情况在大城市尤为明显。然而，截止目前中国拥有汽车的人口只有不到10%，这也意味着在中国人们的出行更加依赖于出租车、公共交通等市场提供的服务。另一方面，滴滴出行占领了国内绝大部分的网络呼叫出行市场，面对着巨大的数据量以及与日俱增的数据处理需求。截止目前，滴滴出行平台每日需处理1100万订单，需要分析的数据量达到50TB，路径规划服务请求超过90亿。面对如此庞杂的数据，我们需要通过不断升级、完善与创新背后的云计算与大数据技术，从而保证数据分析及相关应用的稳定，实现高频出行下的运力均衡。供需预测就是其中的一个关键问题。供需预测的目标是准确预测出给定地理区域在未来某个时间段的出行需求量及需求满足量。调研发现，同一地区不同时间段的订单密度是不一样的，例如大型居住区在早高峰时段的出行需求比较旺盛，而商务区则在晚高峰时段的出行需求比较旺盛。

希望能预测到在未来的一段时间内某些地区的出行需求量比较大，以提前对营运车辆提供一些引导，指向性地提高部分地区的运力，从而提升乘客的整体出行体验。

2.13 红酒品质评分

红酒口感的好坏，受很多因素的影响，例如年份、产地、气候、酿造的工艺等等。通过一些化学属性特征就能够很好地判断红酒的品质。通过监测红酒中化学成分的含量，可以控制红酒的品质和口感。

希望基于红酒的化学特性，例如酸性、含糖量、氯化物含量、硫含量、酒精度、PH值、密度等，构建机器学习模型，对红酒品质进行评分。

2.14搜索引擎的搜索量和股价波动

上市公司在互联网中搜索量的变化，会显著影响公司股价的波动和趋势，即所谓的投资者注意力理论。该理论认为，公司在搜索引擎中的搜索量，代表了该股票被投资者关注的程度。因此，当一只股票的搜索频数增加时，说明投资者对该股票的关注度提升，从而使得该股票更容易被个人投资者购买，进一步地导致股票价格上升，带来正向的股票收益。

2.15 中国人口增长分析

中国从1971年开始全面开展了计划生育，使中国总和生育率很快从1970年的5.8降到1980年2.24，接近世代更替水平。此后，人口自然增长率很大程度上与经济的发展等各方面的因素相联系，与经济生活息息相关。影响中国人口自然增长率的因素有很多，如经济整体增长、居民消费水平、文化程度、人口分布，以及非农业与农业人口的比率等。

希望通过历史数据分析，对未来人口增长率进行预测。

2.16 农村居民收入增长预测

“三农”问题的核心是农村居民收入问题。改革开放以来，农村经济蓬勃发展，农村居民收入有了较大幅度的增长，但与城镇居民的收入相比，却表现出增长缓慢、差距越来越大的趋势。

希望对影响我国农村居民收入的因素进行分析，再运用实证方法对农民的经济统计数据进行分析，得到了影响农村居民纯收入的模型。为预测农村居民的收入增长趋势提供工具，为农村地区的政策措施提供参考建议。

2.17 房地产销售影响因素分析

改革开放以来，我国的经济突飞猛进对城市商品房的价格产生了巨大影响，特别是进入21世纪后，伴随着商品房价格日益增长，出现了房地产投资过热。在这种房价居高不下的形势下，国内外诸多专家学者认为我国的房地产市场已经出现价格泡沫，在房地产业对我国国民经济发展起着积极作用的大环境下，这种价格泡沫势必会对我国的经济发展造成重大影响。

年人均收入、新增住房面积及上一年商品房价格等因素对房地产销售有影响，期望利用历史数据分析测度其对商品房价格的影响，找出了引起房地产价格波动的主要因素当年年人均收入，根据实证结论提出了控制房价的建议。

2.18 股价走势预测

随着经济社会的发展，以及人们投资意识的增强，人们越来越多的参与到股票市场的经济活动中，股票投资也已经成为人们生活的一个重要组成部分。然而在股票市场中，众多的指标、众多的信息，很难找出对股价更为关键的因素；其次股市结构极为复杂，影响因素具有多样性、相关性。这导致了很难找出股市内在的模式。

希望在尽可能全面的收集股市信息的基础上，建立股价预测模。

2.19 全国综合运输总量预测

以全国同期国民经济主要产品产量，如原煤、原油、生铁、钢材、水泥、木材、粮食的历史数据，建立数据挖掘模型，对全国综合运输总运量进行预测。

2.20 地震预报

根据历史全球大地震的时空图，找出与中国大陆大地震有关的14个相关区，对这些相关区逐一鉴别，选取较优的9个，再根据这9个相关区发生的大震来预测中国大陆在未来一年内会不会有大震发生。

3聚类算法应用场景实例

3.1 基于用户位置信息的商业选址

随着信息技术的快速发展，移动设备和移动互联网已经普及到千家万户。在用户使用移动网络时，会自然的留下用户的位置信息。随着近年来GIS地理信息技术的不断完善普及，结合用户位置和GIS地理信息将带来创新应用。如百度与万达进行合作，通过定位用户的位置，结合万达的商户信息，向用户推送位置营销服务，提升商户效益。

希望通过大量移动设备用户的位置信息，为某连锁餐饮机构提供新店选址。

3.2 中文地址标准化处理

地址是一个涵盖丰富信息的变量，但长期以来由于中文处理的复杂性、国内中文地址命名的不规范性，使地址中蕴含的丰富信息不能被深度分析挖掘。通过对地址进行标准化的处理，使基于地址的多维度量化挖掘分析成为可能，为不同场景模式下的电子商务应用挖掘提供了更加丰富的方法和手段，因此具有重要的现实意义。

3.3 国家电网用户画像

随着电力体制改革向纵深推进，售电侧逐步向社会资本放开，当下的粗放式经营和统一式客户服务内容及模式，难以应对日益增长的个性化、精准化客户服务体验要求。如何充分利用现有数据资源，深入挖掘客户潜在需求，改善供电服务质量，增强客户黏性，对公司未来发展至关重要。

对电力服务具有较强敏感度的客户对于电费计量、供电质量、电力营销等各方面服务的质量及方式上往往具备更高的要求，成为各级电力公司关注的重点客户。经过多年的发展与沉淀，目前国家电网积累了全网4亿多客户档案数据和海量供电服务信息，以及公司营销、电网生产等数据，可以有效的支撑海量电力数据分析。

因此，国家电网公司希望通过大数据分析技术，科学的开展电力敏感客户分析，以准确地识别敏感客户，并量化敏感程度，进而支撑有针对性的精细化客户服务策略，控制电力服务人工成本、提升企业公众形象。

3.4 非人恶意流量识别

2016年第一季度Facebook发文称，其Atlas DSP平台半年的流量质量测试结果显示，由机器人模拟和黑IP等手段导致的非人恶意流量高达75% . 仅2016上半年，AdMaster反作弊解决方案认定平均每天能有高达 28% 的作弊流量。低质量虚假流量的问题一直存在，这也是过去十年间数字营销行业一直在博弈的问题。基于AdMaster海量监测数据，50%以上的项目均存在作弊嫌疑；不同项目中，作弊流量占广告投放5%到95%不等；其中垂直类和网盟类媒体的作弊流量占比最高；PC端作弊流量比例显著高于移动端和智能电视平台。广告监测行为数据被越来越多地用于建模和做决策，例如绘制用户画像，跨设备识别对应用户等。作弊行为，恶意曝光，网络爬虫，误导点击，甚至是在用户完全无感知的情况下被控制访问等产生的不由用户主观发出的行为给数据带来了巨大的噪声，给模型训练造成了很大影响。

希望基于给定的数据，建立一个模型来识别和标记作弊流量，去除数据的噪声，从而更好的使用数据，使得广告主的利益最大化。

3.5 求职信息完善

有大约10万分优质简历，其中部分简历包含完整的字段，部分简历在学历、公司规模、薪水、职位名称等字段有些置空项。希望对数据进行学习、编码与测试，挖掘出职位路径的走向与规律，形成算法模型，再对数据中置空的信息进行预测。

3.6 搜索引擎查询聚类以进行流量推荐

在搜索引擎中，很多网民的查询意图的比较类似的，对这些查询进行聚类，一方面可以使用类内部的词进行关键词推荐；另一方面，如果聚类过程实现自动化，则也有助于新话题的发现；同时还有助于减少存储空间等。

3.7 生物种群固有结构认知

对动植物分类和对基因进行分类，获取对种群固有结构的认识。

3.8 保险投保者分组

通过一个高的平均消费来鉴定汽车保险单持有者的分组，同时根据住宅类型，价值，地理位置来鉴定一个城市的房产分组。

3.9 网站关键词来源聚类整和

以领域特征明显的词和短语作为聚类对象，在分类系统的大规模层级分类语料库中，利用文本分类的特征提取算法进行词语的领域聚类，通过控制词语频率的影响，分别获取领域通用词和领域专类词。

3.10 图像分割

图像分割广泛应用于医学、交通、军事等领域。图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。聚类算法先将图像空间中的像素用对应的特征空间点表示，根据它们在特征空间的聚集对特征空间进行分割，然后将它们映射回原图像空间，得到分割结果。

4关联规则应用场景实例

4.1 穿衣搭配推荐

穿衣搭配是服饰鞋包导购中非常重要的课题，基于搭配专家和达人生成的搭配组合数据，百万级别的商品的文本和图像数据，以及用户的行为数据。期待能从以上行为、文本和图像数据中挖掘穿衣搭配模型，为用户提供个性化、优质的、专业的穿衣搭配方案，预测给定商品的搭配商品集合。

4.2 互联网情绪指标和生猪价格的关联关系挖掘和预测

生猪是畜牧业的第一大产业，其价格波动的社会反响非常敏感。生猪价格变动的主要原因在于受市场供求关系的影响。然而专家和媒体对于生猪市场前景的判断、疫情的报道，是否会对养殖户和消费者的情绪有所影响？情绪上的变化是否会对这些人群的行为产生一定影响，从而影响生猪市场的供求关系？互联网作为网民发声的第一平台，在网民情绪的捕捉上具有天然的优势。本次赛题希望参赛者可以基于海量提供的数据，挖掘出互联网情绪指标与生猪价格之间的关联关系，从而形成基于互联网数据的生猪价格预测模型，挖掘互联网情绪指标与生猪价格之间的关联关系和预测。

4.3 依据用户轨迹的商户精准营销

随着用户访问移动互联网的与日俱增，随着移动终端的大力发展，越来越多的用户选择使用移动终端访问网络，根据用户访问网络偏好，也形成了相当丰富的用户网络标签和画像等。如何根据用户的画像对用户进行精准营销成为了很多互联网和非互联网企业的新发展方向。如何利用已有的用户画像对用户进行分类，并针对不同分类进行业务推荐，特别是在用户身处特定的地点、商户，如何根据用户画像进行商户和用户的匹配，并将相应的优惠和广告信息通过不同渠道进行推送。

希望根据商户位置及分类数据、用户标签画像数据提取用户标签和商户分类的关联关系，然后根据用户在某一段时间内的位置数据，判断用户进入该商户地位范围300米内，则对用户推送符合该用户画像的商户位置和其他优惠信息。

4.4 地点推荐系统

随着移动社交网路的兴起，用户的移动数据得到了大量的累积，使得这些移动数据能够基于地点推荐技术帮助人们熟悉周遭环境，提升地点的影响力等。

希望利用用户的签到记录和地点的位置、类别等信息，为每个用户推荐50个感兴趣的地点。

4.5 气象关联分析

在社会经济生活中，不少行业，如农业、交通业、建筑业、旅游业、销售业、保险业等，无一例外与天气的变化息息相关。随着各行各业对气象信息的需求越来越大，社会各方对气象数据服务的个性化和精细化要求也在不断提升，如何开发气象数据在不同领域的应用，更好的支持大众创业、万众创新，服务民计民生，是气象大数据面临的迫切需求。

为了更深入地挖掘气象资源的价值，希望基于共计60年的中国地面历史气象数据，推动气象数据与其他各行各业数据的有效结合，寻求气象要素之间、以及气象与其它事物之间的相互关系，让气象数据发挥更多元化的价值。

4.6 交通事故成因分析

随着时代发展，便捷交通对社会产生巨大贡献的同时，各类交通事故也严重地影响了人们生命财产安全和社会经济发展。为了更深入挖掘交通事故的潜在诱因，带动公众关注交通安全，贵阳市交通管理局开放交通事故数据及多维度参考数据，希望通过对事故类型、事故人员、事故车辆、事故天气、驾照信息、驾驶人员犯罪记录数据以及其他和交通事故有关的数据进行深度挖掘，形成交通事故成因分析方案。

4.7 基于兴趣的实时新闻推荐

随着近年来互联网的飞速发展，个性化推荐已成为各大主流网站的一项必不可少服务。提供各类新闻的门户网站是互联网上的传统服务，但是与当今蓬勃发展的电子商务网站相比，新闻的个性化推荐服务水平仍存在较大差距。一个互联网用户可能不会在线购物，但是绝大部分的互联网用户都会在线阅读新闻。因此资讯类网站的用户覆盖面更广，如果能够更好的挖掘用户的潜在兴趣并进行相应的新闻推荐，就能够产生更大的社会和经济价值。初步研究发现，同一个用户浏览的不同新闻的内容之间会存在一定的相似性和关联，物理世界完全不相关的用户也有可能拥有类似的新闻浏览兴趣。此外，用户浏览新闻的兴趣也会随着时间变化，这给推荐系统带来了新的机会和挑战。

因此，希望通过对带有时间标记的用户浏览行为和新闻文本内容进行分析，挖掘用户的新闻浏览模式和变化规律，设计及时准确的推荐系统预测用户未来可能感兴趣的新闻。

4.8 银行金融客户交叉销售分析

某商业银行试图通过对个人客户购买本银行金融产品的数据进行分析，从而发现交叉销售的机会。

4.9 电子商务搭配购买推荐

电子购物网站使用关联规则中规则进行挖掘，然后设置用户有意要一起购买的捆绑包。也有一些购物网站使用它们设置相应的交叉销售，也就是购买某种商品的顾客会看到相关的另外一种商品的广告。

4.10 银行营销方案推荐

关联规则挖掘技术已经被广泛应用在金融行业企业中，它可以成功预测银行客户需求。一旦获得了这些信息，银行就可以改善自身营销。如各银行在自己的ATM机上就捆绑了顾客可能感兴趣的本行产品信息，供使用本行ATM机的用户了解。如果数据库中显示，某个高信用限额的客户更换了地址，这个客户很有可能新近购买了一栋更大的住宅，因此会有可能需要更高信用限额，更高端的新信用卡，或者需要一个住房改善贷款，这些产品都可以通过信用卡账单邮寄给客户。当客户打电话咨询的时候，数据库可以有力地帮助电话销售代表。销售代表的电脑屏幕上可以显示出客户的特点，同时也可以显示出顾客会对什么产品感兴趣。

————————————————

原文链接：https://blog.csdn.net/liulingyuan6/article/details/53648273

图片预览