数据采集技术

沈翠新,薛海燕,邓雪峰

目录

  • 1 课程情况
    • 1.1 课程简介
    • 1.2 教学标准
  • 2 第一单元 初识爬虫
    • 2.1 前导知识:走入爬虫
    • 2.2 前导知识:requests库
    • 2.3 项目1:深职院Logo图片获取
    • 2.4 前导知识:认识BS4
    • 2.5 前导知识:查找标签对象的方法
    • 2.6 项目2:深职要闻数据获取
      • 2.6.1 微课视频
      • 2.6.2 操作视频
    • 2.7 前导知识:CSS选择器
    • 2.8 项目3:酷狗音乐top500的歌曲信息
      • 2.8.1 微课视频
      • 2.8.2 操作视频
    • 2.9 演示动画:http的请求与响应
    • 2.10 本章源码
    • 2.11 本章课件
    • 2.12 思政小课堂:爬虫背后的法律风险
  • 3 第二单元 正则表达式与爬虫
    • 3.1 前导知识:正则表达式与数据获取
    • 3.2 项目4:斗破苍穹小说数据获取
      • 3.2.1 微课视频
      • 3.2.2 操作视频
    • 3.3 前导知识:异步加载与爬虫
    • 3.4 项目5:简书网IT互联网专题文章
      • 3.4.1 微课视频
      • 3.4.2 操作视频
    • 3.5 本章源码
    • 3.6 本章课件
    • 3.7 思政小课堂: robots协议
  • 4 第三单元 数据存储
    • 4.1 前导知识:使用sqlite存储数据
    • 4.2 项目6:深圳7天天气预报数据获取及存储
      • 4.2.1 微课视频
      • 4.2.2 操作视频
    • 4.3 项目7:使用mysql存储数据
    • 4.4 本章源码
    • 4.5 本章课件
    • 4.6 思政小课堂:数据的背后
  • 5 第四单元网站的爬取策略
    • 5.1 前导知识:深度优先与广度优先
    • 5.2 项目8:国家统计局区划代码获取(使用递归)
    • 5.3 项目9:国家统计局区划代码获取(使用栈)
    • 5.4 演示动画:宽度与深度优先
    • 5.5 本章源码
    • 5.6 本章课件
    • 5.7 思政小课堂:侵权边界在哪
  • 6 第五单元 API与Selenium
    • 6.1 前导知识:API与json格式
    • 6.2 项目10:天气预报数据获取(使用和风天气API)
      • 6.2.1 微课视频
      • 6.2.2 操作视频
    • 6.3 项目11:新浪财经股票实时数据获取
      • 6.3.1 微课视频
      • 6.3.2 操作视频
    • 6.4 前导知识:什么是selenium
    • 6.5 项目12:登录CC网并获取签到数据
      • 6.5.1 微课视频
      • 6.5.2 超星学习通登录与数据点击
    • 6.6 本章源码
    • 6.7 本章课件
    • 6.8 思政小课堂:规范数据流通共享
  • 7 第六单元 scrapy框架基础
    • 7.1 前导知识:scrapy框架原理
    • 7.2 前导知识:scrapy框架入门
    • 7.3 前导知识:数据解析
    • 7.4 项目13:scrapy爬虫实验室数据获取
      • 7.4.1 微课视频
      • 7.4.2 操作视频
    • 7.5 演示动画:scrapy的运行原理
    • 7.6 本章课件
    • 7.7 思政小课堂:实施国家大数据战略的五个“要”​
  • 8 第七单元scrapy框架应用
    • 8.1 前导知识:数据存储
    • 8.2 项目14:爬虫实验室数据存储
    • 8.3 思政小课堂:课程的技术规范
  • 9 第八单元综合应用
    • 9.1 综合应用要求
    • 9.2 项目15:链家租房数据获取
    • 9.3 本章课件
    • 9.4 本章源码
思政小课堂:实施国家大数据战略的五个“要”​

实施国家大数据战略的五个“要”

中共中央总书记习近平在主持学习时强调了5个方面的“要”:

1、要推动大数据技术产业创新发展。

2、要构建以数据为关键要素的数字经济。

3、要运用大数据提升国家治理现代化水平。

4、要运用大数据促进保障和改善民生。

5、要切实保障国家数据安全。

习近平还指出,善于获取数据、分析数据、运用数据,是领导干部做好工作的基本功。

习近平在主持学习时强调,大数据发展日新月异,我们应该审时度势、精心谋划、超前布局、力争主动,深入了解大数据发展现状和趋势及其对经济社会发展的影响,分析我国大数据发展取得的成绩和存在的问题,推动实施国家大数据战略,加快完善数字基础设施,推进数据资源整合和开放共享,保障数据安全,加快建设数字中国,更好服务我国经济社会发展和人民生活改善。

他指出,大数据是信息化发展的新阶段。随着信息技术和人类生产生活交汇融合,互联网快速普及,全球数据呈现爆发增长、海量集聚的特点,对经济发展、社会治理、国家管理、人民生活都产生了重大影响。世界各国都把推进经济数字化作为实现创新发展的重要动能,在前沿技术研发、数据开放共享、隐私安全保护、人才培养等方面做了前瞻性布局。

要推动大数据技术产业创新发展

习近平强调,要推动大数据技术产业创新发展。我国网络购物、移动支付、共享经济等数字经济新业态新模式蓬勃发展,走在了世界前列。我们要瞄准世界科技前沿,集中优势资源突破大数据核心技术,加快构建自主可控的大数据产业链、价值链和生态系统。要加快构建高速、移动、安全、泛在的新一代信息基础设施,统筹规划政务数据资源和社会数据资源,完善基础信息资源和重要领域信息资源建设,形成万物互联、人机交互、天地一体的网络空间。要发挥我国制度优势和市场优势,面向国家重大需求,面向国民经济发展主战场,全面实施促进大数据发展行动,完善大数据发展政策环境。要坚持数据开放、市场主导,以数据为纽带促进产学研深度融合,形成数据驱动型创新体系和发展模式,培育造就一批大数据领军企业,打造多层次、多类型的大数据人才队伍。

要构建以数据为关键要素的数字经济

习近平指出,要构建以数据为关键要素的数字经济。建设现代化经济体系离不开大数据发展和应用。我们要坚持以供给侧结构性改革为主线,加快发展数字经济,推动实体经济和数字经济融合发展,推动互联网、大数据、人工智能同实体经济深度融合,继续做好信息化和工业化深度融合这篇大文章,推动制造业加速向数字化、网络化、智能化发展。要深入实施工业互联网创新发展战略,系统推进工业互联网基础设施和数据资源管理体系建设,发挥数据的基础资源作用和创新引擎作用,加快形成以创新为主要引领和支撑的数字经济。 

要运用大数据提升国家治理现代化水平

习近平强调,要运用大数据提升国家治理现代化水平。要建立健全大数据辅助科学决策和社会治理的机制,推进政府管理和社会治理模式创新,实现政府决策科学化、社会治理精准化、公共服务高效化。要以推行电子政务、建设智慧城市等为抓手,以数据集中和共享为途径,推动技术融合、业务融合、数据融合,打通信息壁垒,形成覆盖全国、统筹利用、统一接入的数据共享大平台,构建全国信息资源共享体系,实现跨层级、跨地域、跨系统、跨部门、跨业务的协同管理和服务。要充分利用大数据平台,综合分析风险因素,提高对风险因素的感知、预测、防范能力。要加强政企合作、多方参与,加快公共服务领域数据集中和共享,推进同企业积累的社会数据进行平台对接,形成社会治理强大合力。要加强互联网内容建设,建立网络综合治理体系,营造清朗的网络空间。

要运用大数据促进保障和改善民生

习近平指出,要运用大数据促进保障和改善民生。大数据在保障和改善民生方面大有作为。要坚持以人民为中心的发展思想,推进互联网+教育”、“互联网+医疗”、“互联网+文化”等,让百姓少跑腿、数据多跑路,不断提升公共服务均等化、普惠化、便捷化水平。要坚持问题导向,抓住民生领域的突出矛盾和问题,强化民生服务,弥补民生短板,推进教育、就业、社保、医药卫生、住房、交通等领域大数据普及应用,深度开发各类便民应用。要加强精准扶贫、生态环境领域的大数据运用,为打赢脱贫攻坚战助力,为加快改善生态环境助力。    

要切实保障国家数据安全

习近平强调,要切实保障国家数据安全。要加强关键信息基础设施安全保护,强化国家关键数据资源保护能力,增强数据安全预警和溯源能力。要加强政策、监管、法律的统筹协调,加快法规制度建设。要制定数据资源确权、开放、流通、交易相关制度,完善数据产权保护制度。要加大对技术专利、数字版权、数字内容产品及个人隐私等的保护力度,维护广大人民群众利益、社会稳定、国家安全。要加强国际数据治理政策储备和治理规则研究,提出中国方案。

习近平还指出,善于获取数据、分析数据、运用数据,是领导干部做好工作的基本功。各级领导干部要加强学习,懂得大数据,用好大数据,增强利用数据推进各项工作的本领,不断提高对大数据发展规律的把握能力,使大数据在各项工作中发挥更大作用。