数据挖掘专题

程宏、王艺红、张海彬、许志钦

目录

  • 1 学习指南
    • 1.1 学习指南
    • 1.2 教学大纲
    • 1.3 授课计划
  • 2 机器学习介绍(预习)
    • 2.1 机器学习介绍
    • 2.2 机器学习Python
    • 2.3 监督 Vs 无监督学习
    • 2.4 Quiz1--机器学习介绍
  • 3 数据挖掘之--模型评价与分类算法
    • 3.1 章节介绍
    • 3.2 机器学习的模型评价
    • 3.3 机器学习分类算法
    • 3.4 分类算法--K近邻算法
      • 3.4.1 Lab: KNN
    • 3.5 分类算法--决策树模型与学习
      • 3.5.1 Lab:Decision Trees
    • 3.6 分类算法--逻辑斯蒂回归模型
      • 3.6.1 Lab: Logistic Regression
    • 3.7 分类算法--支持向量机
      • 3.7.1 Lab: SVM
    • 3.8 Quiz2--Classification
  • 4 数据挖掘之--文本挖掘
    • 4.1 文本挖掘简介
    • 4.2 预处理
    • 4.3 文本分类
    • 4.4 文本挖掘实战
    • 4.5 讲义ppt
  • 5 数据挖掘之--无监督学习
    • 5.1 K-Means聚类
    • 5.2 聚类分析应用实例
    • 5.3 主成分分析
    • 5.4 主成分分析应用实例
  • 6 数据挖掘之--神经网络
    • 6.1 基本结构和主要问题
      • 6.1.1 Lect1-课堂作业
      • 6.1.2 Lect1-课后作业
    • 6.2 傅里叶分析一
      • 6.2.1 Lect2--课堂作业
      • 6.2.2 Lect2-课后作业
    • 6.3 傅里叶分析二
      • 6.3.1 Lect3-课堂作业
      • 6.3.2 Lect3-课后作业
    • 6.4 频率原则
教学大纲

 

课程名称: 数据挖掘专题 (Topics on Data Mining)

    :  1

  :  8

开课学院:  统计与数学学院

预修课程: 概率论与数理统计随机过程线性代数Python语言设计

修读对象: 本科生

课程简介: 随着计算机和英特网的快速发展使得我们能够即时的获得大量信息,如文本、声音、图像等。此外,大量的个人数据,如搜索日志、购买记录和诊断历史,每天都在积累。如此巨大的数据量被称为大数据,通过从数据中提取有用的信息来创造新的价值和商业机会的趋势越来越大。这个过程通常被称为数据挖掘,机器学习算法是提取有用信息的关键核心技术。本课程,将全面系统地介绍数据挖掘基本概念、原理及其主要方法,特别是性能度量、分类算法(决策树、SVMKNN)、主成分和聚类、线性回归、文本挖掘(文本预处理、文本分类)以及神经网络算法等。

 

拟用教材: 李航 ,《统计学习方法》,清华大学出版社,20123月第1

参考教材: ()杉山将 ,《统计机器学习导论(英文版)》,机械工业出版社,201712

 

Course Title: Topic on Data Mining

Credit:  1

Periods per week: 8

Department:  School of Statistics and Mathematics,

Preparatory Course: probability and mathematical statistics, Stochastic Process, Linear Algebra, Python Programming

Students: Undergraduates

Contents: Recent development of computers and the Internet allows us to immediately access a vast amount of information such as texts, sounds, images, and movies. Furthermore, a wide range of personal data such as search logs, purchase records, and diagnosis history is accumulated every day. Such a huge amount of data is called big data, and there is a growing tendency to create new values and business opportunities by extracting useful knowledge from data. This process is often called data mining, and machine learning is the key technology for extracting useful knowledge. In this course, an overview of the field of machine learning is provided. The content mainly includes, in particular, supervised learning methods, including k-nearest neighbor method, decision tree, logistic regression, support vector machine, Cluster, Text mining and Neuron Network, etc.

 

Course Book: Statistical Learning, by Hang Li, Tsinghua Press, first edition, March 2012

Reference Book: Masashi Sugiyama, Statistical Machine Learning: An Introduction, Elsevier, 2015.