数据采集技术

沈翠新,薛海燕,邓雪峰

目录

  • 1 课程情况
    • 1.1 课程简介
    • 1.2 教学标准
  • 2 第一单元 初识爬虫
    • 2.1 前导知识:走入爬虫
    • 2.2 前导知识:requests库
    • 2.3 项目1:深职院Logo图片获取
    • 2.4 前导知识:认识BS4
    • 2.5 前导知识:查找标签对象的方法
    • 2.6 项目2:深职要闻数据获取
      • 2.6.1 微课视频
      • 2.6.2 操作视频
    • 2.7 前导知识:CSS选择器
    • 2.8 项目3:酷狗音乐top500的歌曲信息
      • 2.8.1 微课视频
      • 2.8.2 操作视频
    • 2.9 演示动画:http的请求与响应
    • 2.10 本章源码
    • 2.11 本章课件
    • 2.12 思政小课堂:爬虫背后的法律风险
  • 3 第二单元 正则表达式与爬虫
    • 3.1 前导知识:正则表达式与数据获取
    • 3.2 项目4:斗破苍穹小说数据获取
      • 3.2.1 微课视频
      • 3.2.2 操作视频
    • 3.3 前导知识:异步加载与爬虫
    • 3.4 项目5:简书网IT互联网专题文章
      • 3.4.1 微课视频
      • 3.4.2 操作视频
    • 3.5 本章源码
    • 3.6 本章课件
    • 3.7 思政小课堂: robots协议
  • 4 第三单元 数据存储
    • 4.1 前导知识:使用sqlite存储数据
    • 4.2 项目6:深圳7天天气预报数据获取及存储
      • 4.2.1 微课视频
      • 4.2.2 操作视频
    • 4.3 项目7:使用mysql存储数据
    • 4.4 本章源码
    • 4.5 本章课件
    • 4.6 思政小课堂:数据的背后
  • 5 第四单元网站的爬取策略
    • 5.1 前导知识:深度优先与广度优先
    • 5.2 项目8:国家统计局区划代码获取(使用递归)
    • 5.3 项目9:国家统计局区划代码获取(使用栈)
    • 5.4 演示动画:宽度与深度优先
    • 5.5 本章源码
    • 5.6 本章课件
    • 5.7 思政小课堂:侵权边界在哪
  • 6 第五单元 API与Selenium
    • 6.1 前导知识:API与json格式
    • 6.2 项目10:天气预报数据获取(使用和风天气API)
      • 6.2.1 微课视频
      • 6.2.2 操作视频
    • 6.3 项目11:新浪财经股票实时数据获取
      • 6.3.1 微课视频
      • 6.3.2 操作视频
    • 6.4 前导知识:什么是selenium
    • 6.5 项目12:登录CC网并获取签到数据
      • 6.5.1 微课视频
      • 6.5.2 超星学习通登录与数据点击
    • 6.6 本章源码
    • 6.7 本章课件
    • 6.8 思政小课堂:规范数据流通共享
  • 7 第六单元 scrapy框架基础
    • 7.1 前导知识:scrapy框架原理
    • 7.2 前导知识:scrapy框架入门
    • 7.3 前导知识:数据解析
    • 7.4 项目13:scrapy爬虫实验室数据获取
      • 7.4.1 微课视频
      • 7.4.2 操作视频
    • 7.5 演示动画:scrapy的运行原理
    • 7.6 本章课件
    • 7.7 思政小课堂:实施国家大数据战略的五个“要”​
  • 8 第七单元scrapy框架应用
    • 8.1 前导知识:数据存储
    • 8.2 项目14:爬虫实验室数据存储
    • 8.3 思政小课堂:课程的技术规范
  • 9 第八单元综合应用
    • 9.1 综合应用要求
    • 9.2 项目15:链家租房数据获取
    • 9.3 本章课件
    • 9.4 本章源码
思政小课堂: robots协议

 
  robots协议

1、简介

robots协议也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据(Metadata,又称元数据)。

robots协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。


2、原则

Robots协议是国际互联网界通行的道德规范,基于以下原则建立:
(1)搜索技术应服务于人类,同时尊重信息提供者的意愿,并维护其隐私权;
(2)网站有义务保护其使用者的个人信息和隐私不被侵犯。


3、功能

Robots协议用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取;可以屏蔽一些网站中比较大的文件,如:图片,音乐,视频等,节省服务器带宽;可以屏蔽站点的一些死链接。方便搜索引擎抓取网站内容;设置网站地图连接,方便引导蜘蛛爬取页面。

以上内容,选自百度百科。