课程门户-章节详情

网络信息抓取技术

俞显茂

1 Python爬虫环境与爬虫简介
- 1.1 任务1.1 认识爬虫与反爬虫
- 1.2 任务1.2 实训
  - 1.2.1 任务1.2.1安装python和相关库
  - 1.2.2 任务1.2.2安装mysql
  - 1.2.3 任务1.2.3安装mongodb
- 1.3 实训测验(1)
- 1.4 实训测验(2,3)
- 1.5 课后习题
- 1.6 知识点梳理
2 网页前端基础
- 2.1 任务2.1 认识Python网络编程
- 2.2 任务2.2 认识HTTP
- 2.3 任务2.3 实训
  - 2.3.1 任务2.3.1Pycharm安装
  - 2.3.2 任务2.3.2TCP-Socket编程
  - 2.3.3 任务2.3.3UDP-Socket编程
  - 2.3.4 任务2.3.4获取百度内容
- 2.4 课后习题
- 2.5 知识点梳理
- 2.6 常见问题FAQ
3 简单静态网页爬取
- 3.1 任务3.1 实现HTTP请求
- 3.2 任务3.2 解析网页
- 3.3 任务3.3 数据存储
- 3.4 任务3.4实训
  - 3.4.1 任务3.4.1GET请求并获取网页
  - 3.4.2 任务3.4.2搜索目标节点并提取文本
  - 3.4.3 任务3.4.3数据库建表和数据入库
- 3.5 课后习题
- 3.6 知识点梳理
- 3.7 常见问题FAQ
4 常规动态网页爬取
- 4.1 任务4.1逆向分析爬取动态网页
- 4.2 任务4.2使用 Selenium库爬取动态网页
- 4.3 任务4.3存储数据至 MongoDB
- 4.4 任务4.4实训
  - 4.4.1 任务4.4.1爬取网页推荐图书信息
  - 4.4.2 任务4.4.2爬取网页Java图书信息
  - 4.4.3 任务4.4.3将数据存储到MongoDB
- 4.5 课后习题
- 4.6 知识点梳理
5 模拟登录
- 5.1 任务5.1使用表单登录方法实现模拟登录
- 5.2 任务5.2使用Cookie登录方法实现模拟登录
- 5.3 任务5.3实训
  - 5.3.1 任务5.3.1使用表单登录方式模拟登录
  - 5.3.2 任务5.3.2使用浏览器Cookie模拟登录
  - 5.3.3 任务5.3.3基于表单登录后的Cookie模拟登录
- 5.4 课后习题
- 5.5 知识点梳理
6 终端协议分析
- 6.1 任务6.1分析PC客户端抓包
- 6.2 任务6.2分析APP抓包
- 6.3 任务6.3实训
  - 6.3.1 任务6.3.1抓取千千音乐客户端信息
  - 6.3.2 任务6.3.2爬取人民日报App信息
- 6.4 课后习题
- 6.5 知识点梳理
7 Scrapy爬虫
- 7.1 任务7.1认识Scrapy
- 7.2 任务7.2通过Scrapy爬取文本
- 7.3 任务7.3定制中间件
- 7.4 任务7.4实训
- 7.5 课后习题
- 7.6 知识点梳理
8 综合实训

任务3.3 数据存储

存为JSON文件

存存到MySQL

图片预览