课程门户-章节详情

谢赞福

1 模块一 Python与机器学习概述
- 1.1 Python与机器学习简介
- 1.2 发展历程
- 1.3 基本语法
- 1.4 帮助
- 1.5 应用
- 1.6 示例源代码（食品识别小小专家系统）
- 1.7 示例代码蜡笔小新
- 1.8 小结
- 1.9 Python基础教程（教&学资料）
  - 1.9.1 安装Python
  - 1.9.2 第一个python程序
  - 1.9.3 Python基础
  - 1.9.4 函数
  - 1.9.5 高级特性
  - 1.9.6 函数式编程
  - 1.9.7 模块
  - 1.9.8 面向对象编程
  - 1.9.9 面向对象高级编程
  - 1.9.10 错误、调试和测试
  - 1.9.11 IO编程
  - 1.9.12 进程和线程
  - 1.9.13 正则表达式
  - 1.9.14 常用内建模块
  - 1.9.15 常用第三方模块
  - 1.9.16 图形界面
  - 1.9.17 网络编程
  - 1.9.18 电子邮件
  - 1.9.19 访问数据库
  - 1.9.20 Web开发
  - 1.9.21 异步IO
  - 1.9.22 使用MicroPython
  - 1.9.23 实战训练（day1~~day10)
    - 1.9.23.1 Day 1 - 搭建开发环境
    - 1.9.23.2 Day 2 - 编写Web App骨架
    - 1.9.23.3 Day 3 - 编写ORM
    - 1.9.23.4 Day 4 - 编写Model
    - 1.9.23.5 Day 5 - 编写Web框架
    - 1.9.23.6 Day 6 - 编写配置文件
    - 1.9.23.7 Day 7 - 编写MVC
    - 1.9.23.8 Day 8 - 构建前端
    - 1.9.23.9 Day 9 - 编写API
    - 1.9.23.10 Day 10 - 用户注册和登录
  - 1.9.24 Day 11 - 编写日志创建页
  - 1.9.25 Day 12 - 编写日志列表页
  - 1.9.26 Day 13 - 提升开发效率
  - 1.9.27 Day 14 - 完成Web App
  - 1.9.28 Day 15 - 部署Web App
  - 1.9.29 Day 16 - 编写移动App
- 1.10 FAQ
- 1.11 阶段总结
2 PYthon程序示例
- 2.1 程序示例（一）初识程序
- 2.2 程序示例（二）查看今天是今年的第几天
- 2.3 程序示例（三）if elif else语句
- 2.4 程序示例（四）元组，列表，堆栈，队列
- 2.5 程序示例（五）学玩游戏《学色彩神魔三龟玩变色》
- 2.6 程序示例（六）函数
- 2.7 程序示例（七）字符串
- 2.8 程序示例（八）文件
- 2.9 程序示例（九）排序
- 2.10 程序示例-机器学习中英单词翻译小专家
- 2.11 程序示例画花朵 & 画佩奇
- 2.12 程序示例华夏时钟
- 2.13 示例: 显示图片，响声
- 2.14 播放声音视频文件mp3、wmv、wav、m4a等）
- 2.15 Python WEB开发技术实战
3 模块2 NumPy数值计算
- 3.1 ndarray创建与索引
- 3.2 ndarray的基础操作
- 3.3 ufunc
- 3.4 小结
- 3.5 习题与实训
4 模块3 pandas基础
- 4.1 pandas常用类
- 4.2 DataFrame基础操作
- 4.3 其他数据类型操作
- 4.4 小结
- 4.5 习题与实训
- 4.6 练习题
5 模块4 pandas进阶
- 5.1 数据读取与写出
- 5.2 DataFrame进阶
- 5.3 数据准备
- 5.4 小结
- 5.5 习题与实训
- 5.6 练习习题及解答（参考）
6 模块5 Matplotlib基础绘图
- 6.1 Matplotlib绘图基础
- 6.2 分析特征关系常用图形
- 6.3 分析特征内部数据状态常用图形
- 6.4 小结
- 6.5 习题与实训
7 模块6 机器学习库 scikit-learn
- 7.1 数据准备
- 7.2 降维
- 7.3 分类
- 7.4 回归
- 7.5 聚类
- 7.6 模型选择
- 7.7 小结
- 7.8 习题与实训
8 模块7 餐饮企业综合分析
- 8.1 （案例）餐饮企业分析需求
- 8.2 数据准备
- 8.3 使用K-means算法进行客户价值分析
- 8.4 使用决策树算法实现餐饮客户流失预测
- 8.5 小结
- 8.6 习题与实训
9 模块8 通信运营商客户流失分析与预测
- 9.1 通信运营商客户流失分析需求
- 9.2 数据准备
- 9.3 特征工程
- 9.4 使用多层感知器算法实现通信运营商客户流失预测
- 9.5 小结
- 9.6 习题与实训
10 学习参考资源
- 10.1 机器学习的通俗讲解
- 10.2 十大机器学习算法及其应用
- 10.3 常用机器学习算法优缺点及其应用领域
- 10.4 轻松学会 Python turtle 绘图
- 10.5 Python 习题库
  - 10.5.1 习题1
- 10.6 上机操作实训库
- 10.7 面试准备题
- 10.8 Python 程序扩展名及发布程序时的选择
- 10.9 计算机Python考试大纲
- 10.10 Python 基础知识点梳理
- 10.11 Python常用模块大全
- 10.12 机器学习基本术语
- 10.13 几个机器学习的成功案例
- 10.14 60个机器学习算法应用场景实例
11 章节测验（必测）
- 11.1 测验一
- 11.2 测验二
- 11.3 测验三
- 11.4 测验四
- 11.5 测验五
- 11.6 测验六
- 11.7 测验七
- 11.8 测验八
- 11.9 测验九
- 11.10 测验十
- 11.11 编程专项测验
- 11.12 填空题专项测验
- 11.13 判断题专项测试
- 11.14 简答题专项测试
- 11.15 《机器学习技术》总复习
- 11.16 书本－－习题参考解答
12 综合实训项目及展示
- 12.1 项目（一）作品展示（1）
- 12.2 项目（一）作品展示（2）
- 12.3 团队项目实训（必作！）

pandas常用类

pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现，它是使Python成为强大而高效的数据分析环境的重要因素之一。

可视化是用来探索性数据分析最强大的工具之一。Pandas库包含基本的绘图功能，可以让你创建各种绘图。Pandas中的绘图是在matplotlib之上构建的，如果你很熟悉matplotlib你会惊奇地发现他们的绘图风格是一样的。

Pandas是什么？

Pandas是一个强大的分析结构化数据的工具集；它的使用基础是Numpy（提供高性能的矩阵运算）；用于数据挖掘和数据分析，同时也提供数据清洗功能。

利器之一：DataFrame

DataFrame是Pandas中的一个表格型的数据结构，包含有一组有序的列，每列可以是不同的值类型(数值、字符串、布尔型等)，DataFrame即有行索引也有列索引，可以被看做是由Series组成的字典。

利器之一：Series

它是一种类似于一维数组的对象，是由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。仅由一组数据也可产生简

简介

Pandas 是python的一个数据分析包，最初由AQR Capital Management于2008年4月开发，并于2009年底开源出来，目前由专注于Python数据包开发的PyData开发team继续开发和维护，属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来，因此，pandas为时间序列分析提供了很好的支持。 Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。

panel data是经济学中关于多维数据集的一个术语，在Pandas中也提供了panel的数据类型。

下面列出Pandas部分优势：

处理浮点与非浮点数据里的缺失数据，表示为 NaN；

大小可变：插入或删除 DataFrame 等多维对象的列；

自动、显式数据对齐：显式地将对象与一组标签对齐，也可以忽略标签，在 Series、DataFrame 计算时自动与数据对齐；

强大、灵活的分组（group by）功能：拆分-应用-组合数据集，聚合、转换数据；

把 Python 和 NumPy 数据结构里不规则、不同索引的数据轻松地转换为 DataFrame 对象；

基于智能标签，对大型数据集进行切片、花式索引、子集分解等操作；

直观地合并（merge）、**连接（join）**数据集；

灵活地重塑（reshape）、**透视（pivot）**数据集；

轴支持结构化标签：一个刻度支持多个标签；

成熟的 IO 工具：读取文本文件（CSV 等支持分隔符的文件）、Excel 文件、数据库等来源的数据，利用超快的 HDF5 格式保存 / 加载数据；

时间序列：支持日期范围生成、频率转换、移动窗口统计、移动窗口线性回归、日期位移等时间序列功能。

这些功能主要是为了解决其它编程语言、科研环境的痛点。处理数据一般分为几个阶段：数据整理与清洗、数据分析与建模、数据可视化与制表，Pandas 是处理数据的理想工具。

其它说明：

Pandas 速度很快。Pandas 的很多底层算法都用 Cython (opens new window)优化过。然而，为了保持通用性，必然要牺牲一些性能，如果专注某一功能，完全可以开发出比 Pandas 更快的专用工具。

Pandas 是 statsmodels (opens new window)的依赖项，因此，Pandas 也是 Python 中统计计算生态系统的重要组成部分。

Pandas 已广泛应用于金融领域。

#数据结构

维数名称描述

1 Series 带标签的一维同构数组

2 DataFrame 带标签的，大小可变的，二维异构表格

#为什么有多个数据结构？

Pandas 数据结构就像是低维数据的容器。比如，DataFrame 是 Series 的容器，Series 则是标量的容器。使用这种方式，可以在容器中以字典的形式插入或删除对象。

此外，通用 API 函数的默认操作要顾及时间序列与截面数据集的方向。多维数组存储二维或三维数据时，编写函数要注意数据集的方向，这对用户来说是一种负担；如果不考虑 C 或 Fortran 中连续性对性能的影响，一般情况下，不同的轴在程序里其实没有什么区别。Pandas 里，轴的概念主要是为了给数据赋予更直观的语义，即用“更恰当”的方式表示数据集的方向。这样做可以让用户编写数据转换函数时，少费点脑子。

处理 DataFrame 等表格数据时，index（行）或 columns（列）比 axis 0 和 axis 1 更直观。用这种方式迭代 DataFrame 的列，代码更易读易懂：

for col in df.columns:

series = df[col]

# do something with series

#大小可变与数据复制

Pandas 所有数据结构的值都是可变的，但数据结构的大小并非都是可变的，比如，Series 的长度不可改变，但 DataFrame 里就可以插入列。

Pandas 里，绝大多数方法都不改变原始的输入数据，而是复制数据，生成新的对象。一般来说，原始输入数据不变更稳妥。

数据结构

Series:一维数组，与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近。Series如今能保存不同种数据类型，字符串、boolean值、数字等都能保存在Series中。

Time- Series:以时间为索引的Series。

DataFrame:二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。

Panel :三维的数组，可以理解为DataFrame的容器。

Panel4D:是像Panel一样的4维数据容器。

PanelND:拥有factory集合，可以创建像Panel4D一样N维命名容器的模块。

pandas用法大全

一、生成数据表

pandas用法大全

一、生成数据表

1、首先导入pandas库，一般都会用到numpy库，所以我们先导入备用：

import numpy as np

import pandas as pd

2、导入CSV或者xlsx文件：

df = pd.DataFrame(pd.read_csv('name.csv',header=1))

df = pd.DataFrame(pd.read_excel('name.xlsx'))

3、用pandas创建数据表：

df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006],

"date":pd.date_range('20130102', periods=6),

"city":['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '],

"age":[23,44,54,32,34,32],

"category":['100-A','100-B','110-A','110-C','210-A','130-F'],

"price":[1200,np.nan,2133,5433,np.nan,4432]},

columns =['id','date','city','category','age','price'])

2、数据表信息查看

1、维度查看：

df.shape

2、数据表基本信息（维度、列名称、数据格式、所占空间等）：

df.info()

3、每一列数据的格式：

df.dtypes

4、某一列格式：

df['B'].dtype

5、空值：

df.isnull()

6、查看某一列空值：

df.isnull()

7、查看某一列的唯一值：

df['B'].unique()

8、查看数据表的值：

df.values

9、查看列名称：

df.columns

10、查看前10行数据、后10行数据：

df.head() #默认前10行数据

df.tail() #默认后10 行数据

三、数据表清洗

1、用数字0填充空值：

df.fillna(value=0)

2、使用列prince的均值对NA进行填充：

df['prince'].fillna(df['prince'].mean())

3、清楚city字段的字符空格：

df['city']=df['city'].map(str.strip)

4、大小写转换：

df['city']=df['city'].str.lower()

5、更改数据格式：

df['price'].astype('int')

6、更改列名称：

df.rename(columns={'category': 'category-size'})

7、删除后出现的重复值：

df['city'].drop_duplicates()

8、删除先出现的重复值：

df['city'].drop_duplicates(keep='last')

9、数据替换：

df['city'].replace('sh', 'shanghai')

四、数据预处理

df1=pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006,1007,1008],

"gender":['male','female','male','female','male','female','male','female'],

"pay":['Y','N','Y','Y','N','Y','N','Y',],

"m-point":[10,12,20,40,40,40,30,20]})

1、数据表合并

df_inner=pd.merge(df,df1,how='inner') # 匹配合并，交集

df_left=pd.merge(df,df1,how='left') #

df_right=pd.merge(df,df1,how='right')

df_outer=pd.merge(df,df1,how='outer') #并集

2、设置索引列

df_inner.set_index('id')

3、按照特定列的值排序：

df_inner.sort_values(by=['age'])

4、按照索引列排序：

df_inner.sort_index()

5、如果prince列的值>3000，group列显示high，否则显示low：

df_inner['group'] = np.where(df_inner['price'] > 3000,'high','low')

6、对复合多个条件的数据进行分组标记

df_inner.loc[(df_inner['city'] == 'beijing') & (df_inner['price'] >= 4000), 'sign']=1

7、对category字段的值依次进行分列，并创建数据表，索引值为df_inner的索引列，列名称为category和size

pd.DataFrame((x.split('-') for x in df_inner['category']),index=df_inner.index,columns=['category','size']))

8、将完成分裂后的数据表和原df_inner数据表进行匹配

df_inner=pd.merge(df_inner,split,right_index=True, left_index=True)

五、数据提取

主要用到的三个函数：loc,iloc和ix，loc函数按标签值进行提取，iloc按位置进行提取，ix可以同时按标签和位置进行提取。

1、按索引提取单行的数值

df_inner.loc[3]

2、按索引提取区域行数值

df_inner.iloc[0:5]

3、重设索引

df_inner.reset_index()

4、设置日期为索引

df_inner=df_inner.set_index('date')

5、提取4日之前的所有数据

df_inner[:'2020-01-04']

6、使用iloc按位置区域提取数据

df_inner.iloc[:3,:2] #冒号前后的数字不再是索引的标签名称，而是数据所在的位置，从0开始，前三行，前两列。

7、适应iloc按位置单独提起数据

df_inner.iloc[[0,2,5],[4,5]] #提取第0、2、5行，4、5列

8、使用ix按索引标签和位置混合提取数据

df_inner.ix[:'2013-01-03',:4] #2013-01-03号之前，前四列数据

9、判断city列的值是否为北京

df_inner['city'].isin(['beijing'])

10、判断city列里是否包含beijing和shanghai，然后将符合条件的数据提取出来

df_inner.loc[df_inner['city'].isin(['beijing','shanghai'])]

11、提取前三个字符，并生成数据表

pd.DataFrame(category.str[:3])

六、数据筛选

使用与、或、非三个条件配合大于、小于、等于对数据进行筛选，并进行计数和求和。

1、使用“与”进行筛选

df_inner.loc[(df_inner['age'] > 25) & (df_inner['city'] == 'beijing'), ['id','city','age','category','gender']]

2、使用“或”进行筛选

df_inner.loc[(df_inner['age'] > 25) | (df_inner['city'] == 'beijing'), ['id','city','age','category','gender']].sort(['age'])

3、使用“非”条件进行筛选

df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age','category','gender']].sort(['id'])

4、对筛选后的数据按city列进行计数

df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age','category','gender']].sort(['id']).city.count()

5、使用query函数进行筛选

df_inner.query('city == ["beijing", "shanghai"]')

6、对筛选后的结果按prince进行求和

df_inner.query('city == ["beijing", "shanghai"]').price.sum()

七、数据汇总

主要函数是groupby和pivote_table

1、对所有的列进行计数汇总

df_inner.groupby('city').count()

2、按城市对id字段进行计数

df_inner.groupby('city')['id'].count()

3、对两个字段进行汇总计数

df_inner.groupby(['city','size'])['id'].count()

4、对city字段进行汇总，并分别计算prince的合计和均值

df_inner.groupby('city')['price'].agg([len,np.sum, np.mean])

八、数据统计

数据采样，计算标准差，协方差和相关系数

1、简单的数据采样

df_inner.sample(n=3)

2、手动设置采样权重

weights = [0, 0, 0, 0, 0.5, 0.5]

df_inner.sample(n=2, weights=weights)

3、采样后不放回

df_inner.sample(n=6, replace=False)

4、采样后放回

df_inner.sample(n=6, replace=True)

5、数据表描述性统计

df_inner.describe().round(2).T #round函数设置显示小数位，T表示转置

6、计算列的标准差

df_inner['price'].std()

7、计算两个字段间的协方差

df_inner['price'].cov(df_inner['m-point'])

8、数据表中所有字段间的协方差

df_inner.cov()

9、两个字段的相关性分析

df_inner['price'].corr(df_inner['m-point']) #相关系数在-1到1之间，接近1为正相关，接近-1为负相关，0为不相关

10、数据表的相关性分析

df_inner.corr()

九、数据输出

分析后的数据可以输出为xlsx格式和csv格式

1、写入Excel

df_inner.to_excel('excel_to_python.xlsx', sheet_name='bluewhale_cc')

2、写入到CSV

df_inner.to_csv('excel_to_python.csv')

Pandas是什么？

利器之一：DataFrame

利器之一：Series

图片预览