数据采集技术

沈翠新,薛海燕,邓雪峰

目录

  • 1 课程情况
    • 1.1 课程简介
    • 1.2 教学标准
  • 2 第一单元 初识爬虫
    • 2.1 前导知识:走入爬虫
    • 2.2 前导知识:requests库
    • 2.3 项目1:深职院Logo图片获取
    • 2.4 前导知识:认识BS4
    • 2.5 前导知识:查找标签对象的方法
    • 2.6 项目2:深职要闻数据获取
      • 2.6.1 微课视频
      • 2.6.2 操作视频
    • 2.7 前导知识:CSS选择器
    • 2.8 项目3:酷狗音乐top500的歌曲信息
      • 2.8.1 微课视频
      • 2.8.2 操作视频
    • 2.9 演示动画:http的请求与响应
    • 2.10 本章源码
    • 2.11 本章课件
    • 2.12 思政小课堂:爬虫背后的法律风险
  • 3 第二单元 正则表达式与爬虫
    • 3.1 前导知识:正则表达式与数据获取
    • 3.2 项目4:斗破苍穹小说数据获取
      • 3.2.1 微课视频
      • 3.2.2 操作视频
    • 3.3 前导知识:异步加载与爬虫
    • 3.4 项目5:简书网IT互联网专题文章
      • 3.4.1 微课视频
      • 3.4.2 操作视频
    • 3.5 本章源码
    • 3.6 本章课件
    • 3.7 思政小课堂: robots协议
  • 4 第三单元 数据存储
    • 4.1 前导知识:使用sqlite存储数据
    • 4.2 项目6:深圳7天天气预报数据获取及存储
      • 4.2.1 微课视频
      • 4.2.2 操作视频
    • 4.3 项目7:使用mysql存储数据
    • 4.4 本章源码
    • 4.5 本章课件
    • 4.6 思政小课堂:数据的背后
  • 5 第四单元网站的爬取策略
    • 5.1 前导知识:深度优先与广度优先
    • 5.2 项目8:国家统计局区划代码获取(使用递归)
    • 5.3 项目9:国家统计局区划代码获取(使用栈)
    • 5.4 演示动画:宽度与深度优先
    • 5.5 本章源码
    • 5.6 本章课件
    • 5.7 思政小课堂:侵权边界在哪
  • 6 第五单元 API与Selenium
    • 6.1 前导知识:API与json格式
    • 6.2 项目10:天气预报数据获取(使用和风天气API)
      • 6.2.1 微课视频
      • 6.2.2 操作视频
    • 6.3 项目11:新浪财经股票实时数据获取
      • 6.3.1 微课视频
      • 6.3.2 操作视频
    • 6.4 前导知识:什么是selenium
    • 6.5 项目12:登录CC网并获取签到数据
      • 6.5.1 微课视频
      • 6.5.2 超星学习通登录与数据点击
    • 6.6 本章源码
    • 6.7 本章课件
    • 6.8 思政小课堂:规范数据流通共享
  • 7 第六单元 scrapy框架基础
    • 7.1 前导知识:scrapy框架原理
    • 7.2 前导知识:scrapy框架入门
    • 7.3 前导知识:数据解析
    • 7.4 项目13:scrapy爬虫实验室数据获取
      • 7.4.1 微课视频
      • 7.4.2 操作视频
    • 7.5 演示动画:scrapy的运行原理
    • 7.6 本章课件
    • 7.7 思政小课堂:实施国家大数据战略的五个“要”​
  • 8 第七单元scrapy框架应用
    • 8.1 前导知识:数据存储
    • 8.2 项目14:爬虫实验室数据存储
    • 8.3 思政小课堂:课程的技术规范
  • 9 第八单元综合应用
    • 9.1 综合应用要求
    • 9.2 项目15:链家租房数据获取
    • 9.3 本章课件
    • 9.4 本章源码
思政小课堂:规范数据流通共享

规范数据流通共享 提升数据安全治理能力

数据技术的快速发展不断催生新的产业形态,正成为经济社会发展的新动能。与之相伴的是,数据安全风险日益成为影响产业发展、网络安全甚至国家安全的重要因素。习近平总书记强调:“要切实保障国家数据安全。要加强关键信息基础设施安全保护,强化国家关键数据资源保护能力,增强数据安全预警和溯源能力。”发展数字经济、加快培育发展数据要素市场,必须把保障数据安全放在突出位置。这就要求我们着力解决数据安全领域的突出问题,有效提升数据安全治理能力。

把握数据安全基本内涵。大数据技术促使数据应用场景和参与主体日益多样化,数据安全的外延不断扩展。对国家而言,大数据是国家基础性战略资源。经济全球化推动世界各国经济贸易与技术交流不断扩大,大量数据日益频繁地在全球范围跨境流动。跨境数据流动引发的安全风险不仅影响商业利益获取,也影响国家安全和国家竞争力。加强数据安全治理已经成为维护国家安全的战略需要。对企业而言,大数据是重要的商业资源和生产要素,数据安全治理能力已成为企业的重要竞争力。对个人而言,大数据收集处理技术和开放共享的要求,弱化了用户对个人信息的自决权力,多源数据汇聚降低了用户隐私被恶意滥用的门槛,数据安全治理成为加强个人数据保护的基本要求。

健全数据安全法律法规。加强数据安全治理,提升数据安全防护水平,需要健全规范数据流通共享和数据权利义务的相关法律法规。依据数据主权原则,明确政府部门监管职责,积极参与跨境数据流动规则制定,健全重点领域数据安全保障制度。理清数据产权体系,完善数据资源分级分类治理的准则,确立覆盖数据全生命周期的安全保护机制,结合不同类型数据属性和安全防护要求,明确数据资源提供方、使用方、监管方等各方主体的数据安全法律责任。推进个人信息保护立法,坚持技术发展与信息保护平衡的原则,界定个人信息合法使用的范围,明确个人的数据权利及权利救济途径,通过技术标准和安全保障措施健全个人数据泄露风险防控制度。完善打击大数据犯罪相关立法,明确数据窃取、滥用与误用的刑事责任,加大对危害数据安全行为的惩戒力度。

加强数据安全协同治理。面对数据安全领域的诸多挑战,政府、企业、行业组织需要有效配合,发挥各自优势,建立适应大数据时代要求的协同治理模式。在政府层面,强化数据安全治理的顶层设计,确立数据安全防护能力标准,实现数据安全风险总体可控;加强数据安全执法,推动建立数据安全治理国际合作机制,严惩重点领域数据违法犯罪行为。对于企业而言,要加强与监管部门沟通协作,完善内部数据安全合规管理,建立标准化、覆盖数据全生命周期的数据安全管理机制;加快数据保护前沿技术研发,以技术赋能数据安全管理。行业组织应立足数据安全与数据应用协同发展,引导企业参与国家大数据安全规则制定,建立行业自律规范,不断优化数据的行业安全标准体系;开展行业数据安全治理水平评估,定期向社会公布企业保护个人数据安全的举措与成果;积极宣传数据安全法律法规,提升公众数据安全意识,为数据安全治理营造良好环境。