职称:讲师
单位:上海立信会计金融学院
部门:统计与数学学院
主讲教师:程宏、王艺红、张海彬、许志钦
教师团队:共4位
学校: | 上海立信会计学院 |
开课院系: | 统计与数学学院 |
课程编号: | 16230012D |
学分: | 1 |
课程名称: 数据挖掘专题 ( Topics on Data Mining) 学 分: 1 周 学 时: 8 开课学院: 统计与数学学院 预修课程: 概率论与数理统计、随机过程、线性代数、 Python语言 修读对象: 本科生 课程简介: 随着计算机和英特网的快速发展使得我们能够即时的获得大量信息,如文本、声音、图像等。此外,大量的个人数据,如搜索日志、购买记录和诊断历史,每天都在积累。如此巨大的数据量被称为大数据,通过从数据中提取有用的信息来创造新的价值和商业机会的趋势越来越大。这个过程通常被称为数据挖掘,统计机器学习是提取有用信息的关键核心技术。 本课程,将全面系统地介绍数据挖掘的基本概念、原理及其主要方法,特别是模型评估指标、分类算法(决策树、SVM、KNN)、主成分和聚类、文本挖掘(文本预处理、文本分类)以及神经网络算法等。 课程的主要特色为:强化授课内容的实验性、实践性和形象化,利用共享实验资源提升授课对象的自主学习能力和动手能力,提升课程互动性,具体包括: 实践教学特色:课程内容接地气,紧密结合金融市场发展和企业实践数据讲授机器学习建模原理、数据预处理、机器学习模型、深度学习模型,内容更加生动。 案例教学特色:开展综合案例实践,加深您对实际场景应用问题的了解,增强内容的启发性。 实验教学特色:借助实验软件展现相关内容的应用,提升课程的互动性。 拟用教材: 李航 著,《统计学习方法》,清华大学出版社,2019年5月第2版 参考教材: (日)杉山将 著,《统计机器学习导论(英文版)》,机械工业出版社,2017年12月 Course Title: Introduction to statistical machine learning (Bilingual) Credit: 3 Periods per week: 3 Department: School of Statistics and Mathematics, Preparatory Course: probability and mathematical statistics, Stochastic Process, Linear Algebra Students: Undergraduates Contents: Recent development of computers and the Internet allows us to immediately access a vast amount of information such as texts, sounds, images, and movies. Furthermore, a wide range of personal data such as search logs, purchase records, and diagnosis history are accumulated every day. Such a huge amount of data is called big data,and there is a growing tendency to create new values and business opportunities by extracting useful knowledge from data. This process is often called data mining, and machine learning is the key technology for extracting useful knowledge. In this course, an overview of the field of Statistical machine learning is provided. The content mainly includes, in particular, supervised learning methods, including perceptron, k-nearest neighbor method, Naive Bayesian method, decision tree, logistic regression and maximum entropy model, support vector machine, boosting method, EM algorithm, etc. Course Book: Statistical Learning, by Hang Li, Tsinghua Press, first edition, March 2012 Reference Book: Masashi Sugiyama, Statistical Machine Learning: An Introduction, Elsevier, 2015.
《数据挖掘专题》课程,将开展线上线下SPOC教学,为了更好的开展在线课程教学实践,让各位同学了解本门课程的相关学习要求和学习目标,以及如何学习在线课程,提供《学习指南》《课程大纲》《授课计划》给各位同学。希望大家认真阅读,提前准备。
本课程教学周共2周,16课时,其中课程章节授课为2周左右(16课时)。
授课教师:程宏、王艺红、张海彬、许志钦
考核方式:考查;平时成绩占100%。需要提交实验报告1份。该实验报告,可以在四个专题内容内任选一个完成。
目录当中共4个教学专题,具体教学课时如下:
序号 | 内 容 | 理论课时 | 实践课时 | 备注 |
1 | 性能度量与分类算法 (程宏) | 3 | 1 | 4 |
2 | 文本挖掘 (张海彬) | 3 | 1 | 4 |
3 | 无监督学习 (王艺红) | 3 | 1 | 4 |
4 | 神经网络 (许志钦) | 3 | 1 | 4 |
总 计 | 12 | 4 | 16 |
在每一章后面都提供相应的“参考资料视频资料”供同学学习。
每次上课时间,大家点开相应的视频,对照PPT,在线学习,其中有课堂作业(或 思考题),需要大家在超星平台的讨论模块进行回答。所有在线教学视频和相关资源都有任务点需要大家完成,这些任务点都纳入到在线教学考核成绩。
有问题大家可以在《数据挖掘专题》微信群里提出,老师在线答疑。
每学完一章的教学内容,我们需要完成相应的课后作业,相关作业都在学习资源中或发布的作业中进行下载解答,同时按照要求提交电子版至超星学习平台中的作业任务中。
授课内容所需要的数据文件,请在“资料”栏目下载。“授课计划”和“教学大纲”都可从下面下载。
《数据挖掘专题》--教学大纲
《数据挖掘专题》--教学计划
课程章节 | | 文件类型 | | 修改时间 | | 大小 | | 备注 | |
1.1 学习指南 |
文档
.pdf
|
2020-09-05 | 93.80KB | ||
1.2 教学大纲 |
文档
.pdf
|
2020-12-15 | 237.52KB | ||
1.3 授课计划 |
文档
.pdf
|
2020-08-19 | 197.39KB | ||
2.1 机器学习介绍 |
视频
.mp4
|
2020-08-21 | 6.30MB | ||
附件
.${file.extension}
|
2020-08-21 | -- | |||
2.2 机器学习Python |
视频
.mp4
|
2020-08-19 | 4.03MB | ||
2.3 监督 Vs 无监督学习 |
视频
.mp4
|
2020-08-19 | 4.31MB | ||
2.4 Quiz1--机器学习介绍 |
作业
.work
|
2020-08-19 | -- | ||
3.2 机器学习的模型评价 |
视频
.mp4
|
2020-09-04 | 145.99MB | ||
视频
.mp4
|
2020-09-04 | 61.19MB | |||
视频
.mp4
|
2020-09-04 | 54.82MB | |||
视频
.mp4
|
2020-09-04 | 37.39MB | |||
视频
.mp4
|
2020-09-04 | 69.64MB | |||
文档
.pdf
|
2020-09-04 | 6.02MB | |||
3.3 机器学习分类算法 |
视频
.mp4
|
2020-09-04 | 44.54MB | ||
视频
.mp4
|
2020-09-04 | 43.57MB | |||
文档
.pdf
|
2020-09-04 | 4.17MB | |||
3.4 分类算法--K近邻算法 |
视频
.mp4
|
2020-09-04 | 51.58MB | ||
视频
.mp4
|
2020-09-04 | 61.68MB | |||
文档
.pdf
|
2020-09-04 | 1.19MB | |||
视频
.mp4
|
2020-09-04 | 2.77MB | |||
视频
.mp4
|
2020-09-04 | 6.24MB | |||
视频
.mp4
|
2020-09-04 | 4.63MB | |||
3.4.1 Lab: KNN |
附件
.${file.extension}
|
2020-08-26 | -- | ||
3.5 分类算法--决策树模型与学习 |
视频
.mp4
|
2020-09-04 | 93.53MB | ||
视频
.mp4
|
2020-09-04 | 58.87MB | |||
文档
.pdf
|
2020-09-04 | 1.49MB | |||
视频
.mp4
|
2020-09-04 | 2.78MB | |||
视频
.mp4
|
2020-09-04 | 7.23MB | |||
3.6 分类算法--逻辑斯蒂回归模型 |
视频
.mp4
|
2020-09-05 | 56.27MB | ||
视频
.mp4
|
2020-09-05 | 71.59MB | |||
文档
.pdf
|
2020-09-05 | 1.83MB | |||
视频
.mp4
|
2020-09-05 | 5.38MB | |||
视频
.mp4
|
2020-09-05 | 10.04MB | |||
视频
.mp4
|
2020-09-05 | 9.44MB | |||
3.7 分类算法--支持向量机 |
视频
.mp4
|
2020-12-16 | 79.13MB | ||
视频
.mp4
|
2020-12-16 | 37.43MB | |||
文档
.pdf
|
2020-12-16 | 1.81MB | |||
视频
.mp4
|
2020-12-16 | 5.91MB | |||
3.8 Quiz2--Classification |
作业
.work
|
2020-08-19 | -- | ||
4.1 文本挖掘简介 |
视频
.mov
|
2020-09-08 | 44.57MB | ||
4.2 预处理 |
视频
.mov
|
2020-09-08 | 72.36MB | ||
4.3 文本分类 |
视频
.mov
|
2020-09-08 | 22.86MB | ||
4.5 讲义ppt |
文档
.ppt
|
2020-12-16 | 849.50KB | ||
5.1 K-Means聚类 |
视频
.mp4
|
2020-08-24 | 196.62MB | ||
视频
.mp4
|
2020-08-24 | 520.05MB | |||
视频
.mp4
|
2020-08-24 | 794.02MB | |||
视频
.mp4
|
2020-08-24 | 596.40MB | |||
文档
.pdf
|
2020-08-24 | 1.33MB | |||
视频
.mp4
|
2020-08-24 | 375.33MB | |||
5.2 聚类分析应用实例 |
文档
.pdf
|
2020-08-24 | 389.13KB | ||
视频
.mp4
|
2020-08-24 | 334.93MB | |||
5.3 主成分分析 |
文档
.pdf
|
2020-08-24 | 497.84KB | ||
视频
.mp4
|
2020-08-24 | 529.93MB | |||
5.4 主成分分析应用实例 |
文档
.pdf
|
2020-08-24 | 497.84KB | ||
视频
.mp4
|
2020-08-24 | 321.58MB | |||
6.1 基本结构和主要问题 |
视频
.mp4
|
2020-08-21 | 33.47MB | ||
视频
.mp4
|
2020-08-21 | 39.36MB | |||
视频
.mp4
|
2020-08-21 | 39.20MB | |||
6.2 傅里叶分析一 |
视频
.mp4
|
2020-12-15 | 40.74MB | ||
视频
.mp4
|
2020-12-15 | 44.04MB | |||
视频
.mp4
|
2020-12-15 | 33.19MB | |||
文档
.pptx
|
2020-12-15 | 4.60MB | |||
6.3 傅里叶分析二 |
视频
.mp4
|
2020-08-20 | 31.16MB | ||
视频
.mp4
|
2020-08-20 | 27.73MB | |||
视频
.mp4
|
2020-08-20 | 28.65MB | |||
文档
.pptx
|
2020-08-20 | 11.27MB | |||
6.4 频率原则 |
视频
.mp4
|
2020-08-21 | 27.16MB | ||
视频
.mp4
|
2020-08-21 | 26.96MB | |||
视频
.mp4
|
2020-08-21 | 46.10MB | |||
文档
.pptx
|
2020-08-21 | 5.51MB |