课程门户-章节详情

沈翠新，薛海燕，邓雪峰

1 课程情况
- 1.1 课程简介
- 1.2 教学标准
2 第一单元　初识爬虫
- 2.1 前导知识：走入爬虫
- 2.2 前导知识：requests库
- 2.3 项目1：深职院Logo图片获取
- 2.4 前导知识：认识BS4
- 2.5 前导知识：查找标签对象的方法
- 2.6 项目2：深职要闻数据获取
  - 2.6.1 微课视频
  - 2.6.2 操作视频
- 2.7 前导知识：CSS选择器
- 2.8 项目3：酷狗音乐top500的歌曲信息
  - 2.8.1 微课视频
  - 2.8.2 操作视频
- 2.9 演示动画：http的请求与响应
- 2.10 本章源码
- 2.11 本章课件
- 2.12 思政小课堂：爬虫背后的法律风险
3 第二单元　正则表达式与爬虫
- 3.1 前导知识：正则表达式与数据获取
- 3.2 项目4：斗破苍穹小说数据获取
  - 3.2.1 微课视频
  - 3.2.2 操作视频
- 3.3 前导知识：异步加载与爬虫
- 3.4 项目5：简书网IT互联网专题文章
  - 3.4.1 微课视频
  - 3.4.2 操作视频
- 3.5 本章源码
- 3.6 本章课件
- 3.7 思政小课堂： robots协议
4 第三单元　数据存储
- 4.1 前导知识:使用sqlite存储数据
- 4.2 项目6：深圳7天天气预报数据获取及存储
  - 4.2.1 微课视频
  - 4.2.2 操作视频
- 4.3 项目7：使用mysql存储数据
- 4.4 本章源码
- 4.5 本章课件
- 4.6 思政小课堂：数据的背后
5 第四单元网站的爬取策略
- 5.1 前导知识：深度优先与广度优先
- 5.2 项目8：国家统计局区划代码获取（使用递归）
- 5.3 项目9：国家统计局区划代码获取（使用栈）
- 5.4 演示动画：宽度与深度优先
- 5.5 本章源码
- 5.6 本章课件
- 5.7 思政小课堂：侵权边界在哪
6 第五单元 API与Selenium
- 6.1 前导知识：API与json格式
- 6.2 项目10：天气预报数据获取（使用和风天气API）
  - 6.2.1 微课视频
  - 6.2.2 操作视频
- 6.3 项目11：新浪财经股票实时数据获取
  - 6.3.1 微课视频
  - 6.3.2 操作视频
- 6.4 前导知识：什么是selenium
- 6.5 项目12：登录CC网并获取签到数据
  - 6.5.1 微课视频
  - 6.5.2 超星学习通登录与数据点击
- 6.6 本章源码
- 6.7 本章课件
- 6.8 思政小课堂：规范数据流通共享
7 第六单元 scrapy框架基础
- 7.1 前导知识：scrapy框架原理
- 7.2 前导知识：scrapy框架入门
- 7.3 前导知识：数据解析
- 7.4 项目13：scrapy爬虫实验室数据获取
  - 7.4.1 微课视频
  - 7.4.2 操作视频
- 7.5 演示动画：scrapy的运行原理
- 7.6 本章课件
- 7.7 思政小课堂：实施国家大数据战略的五个“要”
8 第七单元scrapy框架应用
- 8.1 前导知识：数据存储
- 8.2 项目14：爬虫实验室数据存储
- 8.3 思政小课堂：课程的技术规范
9 第八单元综合应用
- 9.1 综合应用要求
- 9.2 项目15：链家租房数据获取
- 9.3 本章课件
- 9.4 本章源码

思政小课堂： robots协议

robots协议

1、简介

robots协议也叫robots.txt（统一小写）是一种存放于网站根目录下的ASCII编码的文本文件，它通常告诉网络搜索引擎的漫游器（又称网络蜘蛛），此网站中的哪些内容是不应被搜索引擎的漫游器获取的，哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的，所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为，那么可以将自定的设置合并到根目录下的robots.txt，或者使用robots元数据（Metadata，又称元数据）。

robots协议并不是一个规范，而只是约定俗成的，所以并不能保证网站的隐私。

2、原则

Robots协议是国际互联网界通行的道德规范，基于以下原则建立：
（1）搜索技术应服务于人类，同时尊重信息提供者的意愿，并维护其隐私权；
（2）网站有义务保护其使用者的个人信息和隐私不被侵犯。

3、功能

Robots协议用来告知搜索引擎哪些页面能被抓取，哪些页面不能被抓取；可以屏蔽一些网站中比较大的文件，如：图片，音乐，视频等，节省服务器带宽；可以屏蔽站点的一些死链接。方便搜索引擎抓取网站内容；设置网站地图连接，方便引导蜘蛛爬取页面。

以上内容，选自百度百科。

图片预览