目录

  • 1 Python爬虫环境与爬虫简介
    • 1.1 任务1.1 认识爬虫与反爬虫
    • 1.2 任务1.2 实训
      • 1.2.1 任务1.2.1安装python和相关库
      • 1.2.2 任务1.2.2安装mysql
      • 1.2.3 任务1.2.3安装mongodb
    • 1.3 实训测验(1)
    • 1.4 实训测验(2,3)
    • 1.5 课后习题
    • 1.6 知识点梳理
  • 2 网页前端基础
    • 2.1 任务2.1 认识Python网络编程
    • 2.2 任务2.2 认识HTTP
    • 2.3 任务2.3 实训
      • 2.3.1 任务2.3.1Pycharm安装
      • 2.3.2 任务2.3.2TCP-Socket编程
      • 2.3.3 任务2.3.3UDP-Socket编程
      • 2.3.4 任务2.3.4获取百度内容
    • 2.4 课后习题
    • 2.5 知识点梳理
    • 2.6 常见问题FAQ
  • 3 简单静态网页爬取
    • 3.1 任务3.1 实现HTTP请求
    • 3.2 任务3.2 解析网页
    • 3.3 任务3.3 数据存储
    • 3.4 任务3.4实训
      • 3.4.1 任务3.4.1GET请求并获取网页
      • 3.4.2 任务3.4.2搜索目标节点并提取文本
      • 3.4.3 任务3.4.3数据库建表和数据入库
    • 3.5 课后习题
    • 3.6 知识点梳理
    • 3.7 常见问题FAQ
  • 4 常规动态网页爬取
    • 4.1 任务4.1逆向分析爬取动态网页
    • 4.2 任务4.2使用 Selenium库爬取动态网页
    • 4.3 任务4.3存储数据至 MongoDB
    • 4.4 任务4.4实训
      • 4.4.1 任务4.4.1爬取网页推荐图书信息
      • 4.4.2 任务4.4.2爬取网页Java图书信息
      • 4.4.3 任务4.4.3将数据存储到MongoDB
    • 4.5 课后习题
    • 4.6 知识点梳理
  • 5 模拟登录
    • 5.1 任务5.1使用表单登录方法实现模拟登录
    • 5.2 任务5.2使用Cookie登录方法实现模拟登录
    • 5.3 任务5.3实训
      • 5.3.1 任务5.3.1使用表单登录方式模拟登录
      • 5.3.2 任务5.3.2使用浏览器Cookie模拟登录
      • 5.3.3 任务5.3.3基于表单登录后的Cookie模拟登录
    • 5.4 课后习题
    • 5.5 知识点梳理
  • 6 终端协议分析
    • 6.1 任务6.1分析PC客户端抓包
    • 6.2 任务6.2分析APP抓包
    • 6.3 任务6.3实训
      • 6.3.1 任务6.3.1抓取千千音乐客户端信息
      • 6.3.2 任务6.3.2爬取人民日报App信息
    • 6.4 课后习题
    • 6.5 知识点梳理
  • 7 Scrapy爬虫
    • 7.1 任务7.1认识Scrapy
    • 7.2 任务7.2通过Scrapy爬取文本
    • 7.3 任务7.3定制中间件
    • 7.4 任务7.4实训
    • 7.5 课后习题
    • 7.6 知识点梳理
  • 8 综合实训
任务3.3 数据存储

存为JSON文件


存存到MySQL