数据采集技术

沈翠新,薛海燕,邓雪峰

目录

  • 1 课程情况
    • 1.1 课程简介
    • 1.2 教学标准
  • 2 第一单元 初识爬虫
    • 2.1 前导知识:走入爬虫
    • 2.2 前导知识:requests库
    • 2.3 项目1:深职院Logo图片获取
    • 2.4 前导知识:认识BS4
    • 2.5 前导知识:查找标签对象的方法
    • 2.6 项目2:深职要闻数据获取
      • 2.6.1 微课视频
      • 2.6.2 操作视频
    • 2.7 前导知识:CSS选择器
    • 2.8 项目3:酷狗音乐top500的歌曲信息
      • 2.8.1 微课视频
      • 2.8.2 操作视频
    • 2.9 演示动画:http的请求与响应
    • 2.10 本章源码
    • 2.11 本章课件
    • 2.12 思政小课堂:爬虫背后的法律风险
  • 3 第二单元 正则表达式与爬虫
    • 3.1 前导知识:正则表达式与数据获取
    • 3.2 项目4:斗破苍穹小说数据获取
      • 3.2.1 微课视频
      • 3.2.2 操作视频
    • 3.3 前导知识:异步加载与爬虫
    • 3.4 项目5:简书网IT互联网专题文章
      • 3.4.1 微课视频
      • 3.4.2 操作视频
    • 3.5 本章源码
    • 3.6 本章课件
    • 3.7 思政小课堂: robots协议
  • 4 第三单元 数据存储
    • 4.1 前导知识:使用sqlite存储数据
    • 4.2 项目6:深圳7天天气预报数据获取及存储
      • 4.2.1 微课视频
      • 4.2.2 操作视频
    • 4.3 项目7:使用mysql存储数据
    • 4.4 本章源码
    • 4.5 本章课件
    • 4.6 思政小课堂:数据的背后
  • 5 第四单元网站的爬取策略
    • 5.1 前导知识:深度优先与广度优先
    • 5.2 项目8:国家统计局区划代码获取(使用递归)
    • 5.3 项目9:国家统计局区划代码获取(使用栈)
    • 5.4 演示动画:宽度与深度优先
    • 5.5 本章源码
    • 5.6 本章课件
    • 5.7 思政小课堂:侵权边界在哪
  • 6 第五单元 API与Selenium
    • 6.1 前导知识:API与json格式
    • 6.2 项目10:天气预报数据获取(使用和风天气API)
      • 6.2.1 微课视频
      • 6.2.2 操作视频
    • 6.3 项目11:新浪财经股票实时数据获取
      • 6.3.1 微课视频
      • 6.3.2 操作视频
    • 6.4 前导知识:什么是selenium
    • 6.5 项目12:登录CC网并获取签到数据
      • 6.5.1 微课视频
      • 6.5.2 超星学习通登录与数据点击
    • 6.6 本章源码
    • 6.7 本章课件
    • 6.8 思政小课堂:规范数据流通共享
  • 7 第六单元 scrapy框架基础
    • 7.1 前导知识:scrapy框架原理
    • 7.2 前导知识:scrapy框架入门
    • 7.3 前导知识:数据解析
    • 7.4 项目13:scrapy爬虫实验室数据获取
      • 7.4.1 微课视频
      • 7.4.2 操作视频
    • 7.5 演示动画:scrapy的运行原理
    • 7.6 本章课件
    • 7.7 思政小课堂:实施国家大数据战略的五个“要”​
  • 8 第七单元scrapy框架应用
    • 8.1 前导知识:数据存储
    • 8.2 项目14:爬虫实验室数据存储
    • 8.3 思政小课堂:课程的技术规范
  • 9 第八单元综合应用
    • 9.1 综合应用要求
    • 9.2 项目15:链家租房数据获取
    • 9.3 本章课件
    • 9.4 本章源码
前导知识:scrapy框架原理