目录

  • 1 项目介绍
    • 1.1 项目背景
    • 1.2 项目环境
  • 2 项目任务
    • 2.1 新型冠状病毒数据分析项目数据采集与清洗
    • 2.2 新型冠状病毒数据分析项目数据分析与可视化
    • 2.3 新型冠状病毒数据分析项目模型训练
  • 3 项目报告
    • 3.1 数据采集
    • 3.2 数据分析与可视化
    • 3.3 模型训练
新型冠状病毒数据分析项目数据采集与清洗

任务名称:新型冠状病毒数据分析项目数据采集与清洗

子任务一

数据集:


步骤一:测试环境和读取数据集

1.在本机上打开jupyter notebook工具,打开1-5-1.ipynb文件,输入"hello,world"并运行,测试运行环境,测试成功则截图并保存,图片保存到考生文件夹下,并命名为“测试环境.png”。

2.导入pandas、numpy库,截图并保存,图片保存到考生文件夹下,并命名为“导入第三库.png”。

3.读取数据集base.csv,打印显示原始数据前5行,查看数据集的shape属性,截图并保存,图片保存到考生文件夹下,并命名为“数据集.png”。

步骤二:数据清洗

示例文件:


1.编写程序,统计数据集中的缺失值情况,如果severe列缺失值均以数值“0”补全,再次统计填充后缺失值的数量,如果suspect 列存在缺失值,则删除缺失值所在的行。将再次统计后的结果进行截图,并保存到考生文件夹下,命名为“填充后数据集情况.png”。

2.编写程序,对confirm列累计求和,计算并查看数据集中累计确诊病例数。

3.编写程序,计算并查找出累计确诊数量最多的省份。

4.保存1-5-1.ipynb文件到考生文件夹下。

步骤三:撰写报告

1.在考生文件夹下,新建word文档,撰写报告,要求图文并茂,具体分析数据集的基本情况,并对数据集的清洗和统计工作,提出合理性建议。

2.文档中各级标题、正文应分别统一字体、字号、行距、段前缩进等基本排版要素。文档中的图片、表格应有对应的图题、表题,其中图题在图片下方,表题在表格上方。

3.保存word文档到考生文件夹下,并命名为 “项目报告.docx”。

子任务二

数据集:


步骤一:测试环境和读取数据集

1.在本机上打开jupyter notebook工具,打开 1-5-2.ipynb文件,输入"hello,world"并运行,测试运行环境,测试成功则截图并保存,图片保存到考生文件夹下,并命名为“测试环境.png”。

2.导入pandas、numpy库,截图并保存,图片保存到考生文件夹下,并命名为“导入第三库.png”。

3.读取数据集wuhan.csv,打印显示原始数据后5行,查看数据集的shape属性,截图并保存,图片保存到考生文件夹下,并命名为“数据集.png”。

步骤二:数据清洗

示例文件:


1.编写程序,读取数据集others.csv,合并wuhan.csv、others.csv数据集,并保存到考生文件夹下,并命名为“data.csv”。

2.编写程序,统计data.csv数据集中的各列缺失值情况,如果存在缺失值,confirmed、cured列缺失值均以数值“0”补全,再次统计并显示填充后缺失值的数量,将显示结果截图保存到考生文件夹下,并命名为“填充后数据集情况.png”。

3.编写程序,对data.csv执行切片操作,返回“city”和“confirmed”列的6-10行数据。

4.保存1-5-2.ipynb文件到考生文件夹下。

步骤三:撰写报告

1.在考生文件夹下,新建word文档,撰写报告,要求图文并茂,具体分析:

(1)介绍数据集的基本情况;

(2)列举对数据集进行合并的方法;

(3)并对数据集未完成的清洗和预处理工作,提出合理性建议。

2.文档中各级标题、正文应分别统一字体、字号、行距、段前缩进等基本排版要素。文档中的图片、表格应有对应的图题、表题,其中图题在图片下方,表题在表格上方。

3.保存word文档到考生文件夹下,并命名为 “项目报告.docx”。

作品提交要求:

(1)在目录“C:\exam\submit\”下建立以“机位号_题号”命名的考生文件夹,所有提交文件均放在该目录下。例如:张三考试的机位号为30,试题编号为1-5-2,则考生文件夹为“C:\exam\submit\30_1-5-2”。

(2)将各任务源文件分别保存在考生文件夹下,运行结果分别截图并保存。