教学内容
1、将大规模数据集(CSV文件)导入数据库。(重点)
2、根据具体的项目需求进行数据预处理(处理缺失值、处理异常值、特征构建、数据标准化)。(重点)
3、基于BI平台实现航空客户数据分析。(重点)
4、通过SQL编程对大规模数据集进行数据预处理的方法。(难点)
5、在具体业务场景下算法的应用及特征参数的构建。(难点)
学习要求
1、掌握数据库在数据分析应用中的作用。
2、理解和掌握SQL内置函数的应用方法。
3、理解和掌握基于数据库技术实现数据预处理的基本方法。
4、掌握利用SQL编程进行数据预处理的基本方法(处理缺失值处理、异常值处理、数据标准化处理)。
5、理解和掌握聚类算法的原理和应用。
6、能够将大规模数据集文件导入数据库。
7、能够根据具体的应用场景选择处理缺失值和异常值的方法。
8、能够正确运用SQL函数进行数据标准化处理。
9、进一步掌握利用BI平台进行数据分析建模的流程和方法。
学习资源列表
1、SPOC微课视频:分层聚类、KMeans聚类分析算法案例、无监督学习算法、数据预处理
2、实践任务
3、电子课件
4、数据预处理总结
5、参考文献
(1)sqlserver导入CSV文件数据
(2)SQL函数浅总结,使用方法及实例讲解大全
(3)机器学习,KMeans聚类分析详解
(4)聚类分析的基本概念和方法
(5)SQL函数浅总结,使用方法及实例讲解大全
(6)SQL 常用函数及示例
(7)数据预处理建议
(8)基于基站定位数据的商圈分析
(9)SQL语言参考
学习任务
第30讲:
1、自主学习SPOC视频资源。
2、完成数据预处理自主探索实践——航空公司客户数据预处理(导入航空公司客户数据、运用SQL编程技术对航空公司用户大规模数据进行预处理);作业成绩计入平时成绩。
3、拓展阅读参考文献。
第31讲:
1、完成模型的后续优化应用-航空公司客户价值分析与实践;作业成绩计入平时成绩。
2、拓展阅读参考文献。

