任务名称:新型冠状病毒数据分析项目数据采集与清洗
子任务一
数据集:
步骤一:测试环境和读取数据集
1.在本机上打开jupyter notebook工具,打开1-5-1.ipynb文件,输入"hello,world"并运行,测试运行环境,测试成功则截图并保存,图片保存到考生文件夹下,并命名为“测试环境.png”。
2.导入pandas、numpy库,截图并保存,图片保存到考生文件夹下,并命名为“导入第三库.png”。
3.读取数据集base.csv,打印显示原始数据前5行,查看数据集的shape属性,截图并保存,图片保存到考生文件夹下,并命名为“数据集.png”。
步骤二:数据清洗
示例文件:
1.编写程序,统计数据集中的缺失值情况,如果severe列缺失值均以数值“0”补全,再次统计填充后缺失值的数量,如果suspect 列存在缺失值,则删除缺失值所在的行。将再次统计后的结果进行截图,并保存到考生文件夹下,命名为“填充后数据集情况.png”。
2.编写程序,对confirm列累计求和,计算并查看数据集中累计确诊病例数。
3.编写程序,计算并查找出累计确诊数量最多的省份。
4.保存1-5-1.ipynb文件到考生文件夹下。
步骤三:撰写报告
1.在考生文件夹下,新建word文档,撰写报告,要求图文并茂,具体分析数据集的基本情况,并对数据集的清洗和统计工作,提出合理性建议。
2.文档中各级标题、正文应分别统一字体、字号、行距、段前缩进等基本排版要素。文档中的图片、表格应有对应的图题、表题,其中图题在图片下方,表题在表格上方。
3.保存word文档到考生文件夹下,并命名为 “项目报告.docx”。
子任务二
数据集:
步骤一:测试环境和读取数据集
1.在本机上打开jupyter notebook工具,打开 1-5-2.ipynb文件,输入"hello,world"并运行,测试运行环境,测试成功则截图并保存,图片保存到考生文件夹下,并命名为“测试环境.png”。
2.导入pandas、numpy库,截图并保存,图片保存到考生文件夹下,并命名为“导入第三库.png”。
3.读取数据集wuhan.csv,打印显示原始数据后5行,查看数据集的shape属性,截图并保存,图片保存到考生文件夹下,并命名为“数据集.png”。
步骤二:数据清洗
示例文件:
1.编写程序,读取数据集others.csv,合并wuhan.csv、others.csv数据集,并保存到考生文件夹下,并命名为“data.csv”。
2.编写程序,统计data.csv数据集中的各列缺失值情况,如果存在缺失值,confirmed、cured列缺失值均以数值“0”补全,再次统计并显示填充后缺失值的数量,将显示结果截图保存到考生文件夹下,并命名为“填充后数据集情况.png”。
3.编写程序,对data.csv执行切片操作,返回“city”和“confirmed”列的6-10行数据。
4.保存1-5-2.ipynb文件到考生文件夹下。
步骤三:撰写报告
1.在考生文件夹下,新建word文档,撰写报告,要求图文并茂,具体分析:
(1)介绍数据集的基本情况;
(2)列举对数据集进行合并的方法;
(3)并对数据集未完成的清洗和预处理工作,提出合理性建议。
2.文档中各级标题、正文应分别统一字体、字号、行距、段前缩进等基本排版要素。文档中的图片、表格应有对应的图题、表题,其中图题在图片下方,表题在表格上方。
3.保存word文档到考生文件夹下,并命名为 “项目报告.docx”。
作品提交要求:
(1)在目录“C:\exam\submit\”下建立以“机位号_题号”命名的考生文件夹,所有提交文件均放在该目录下。例如:张三考试的机位号为30,试题编号为1-5-2,则考生文件夹为“C:\exam\submit\30_1-5-2”。
(2)将各任务源文件分别保存在考生文件夹下,运行结果分别截图并保存。