DataFrame是一个【表格型】的数据结构。DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。DataFrame既有行索引,也有列索引。
行索引:index
列索引:columns
值:values
DataFrame的创建
最常用的方法是传递一个字典来创建。DataFrame以字典的键作为每一【列】的名称,以字典的值(一个数组)作为每一列。
此外,DataFrame会自动加上每一行的索引。使用字典创建的DataFrame后,则columns参数将不可被使用。同Series一样,若传入的列与字典的键不匹配,则相应的值为NaN。
DataFrame属性:values、columns、index、shape
根据添加行索引添加行数据
根据添加列索引添加列数据
对列进行索引
通过类似字典的方式 df[‘q’]
通过属性的方式 df.q
可以将DataFrame的列获取为一个Series。返回的Series拥有原DataFrame相同的索引,且name属性也已经设置好了,就是相应的列名。
对行进行索引
使用.loc[]加index来进行行索引
使用.iloc[]加整数来进行行索引
同样返回一个Series,index为原来的columns。
使用行索引(iloc[3,1] or loc[‘C’,’q’]) 行索引在前,列索引在后
行切片
列切片
直接用中括号时:
索引表示的是列索引
切片表示的是行切片
DataFrame的运算
每个元素进行+-*/
DataFrame之间的运算,同Series一样:
在运算中自动对齐不同索引的数据
如果索引不对应,则补NaN
pandas处理空值操作
isnull()
notnull()
dropna(): 过滤丢失数据
fillna(): 填充丢失数据
df.notnull().any()/all()来判断每行是否有空值
判断哪一行有空值
过滤掉有空值的行
删除空值,默认删除行,设置axis=1删除列
填充空值
创建多层列索引
隐式构造
显示构造pd.MultiIndex.from_,使用product创建
多层列索引
多层行索引
索引的堆(stack):对矩阵的索引进行变换处理
stack():把列索引变成行索引 (从上到左)
unstack():把行索引变成列索引(从左到上)
level=0,代表最外层索引,level=1代表第二层索引
聚合操作
所谓的聚合操作:平均数,方差,最大值,最小值……
df.mean(),df.max(),df.min()…..
pandas的拼接操作
pandas的拼接分为两种:
级联:pd.concat, pd.append
合并:pd.merge, pd.join
使用pd.concat()级联
pandas使用pd.concat函数,与np.concatenate函数类似,只是多了一些参数:
objs
axis=0
keys
join=’outer’ / ‘inner’:表示的是级联的方式,outer会将所有的项进行级联(忽略匹配和不匹配),而inner只会将匹配的项级联到一起,不匹配的不级联
ignore_index=False
不匹配级联
不匹配指的是级联的维度的索引不一致。例如纵向级联时列索引不一致,横向级联时行索引不一致
有2种连接方式:
外连接:补NaN(默认模式)
内连接:只连接匹配的项
使用pd.merge()合并
merge与concat的区别在于,merge需要依据某一共同的行或列来进行合并
使用pd.merge()合并时,会自动根据两者相同column名称的那一列,作为key来进行合并。
注意每一列元素的顺序不要求一致参数:
how:out取并集 inner取交集
on:当有多列相同的时候,可以使用on来指定使用那一列进行合并,on的值为一个列表
一对一合并
列冲突的解决
当列冲突时,即有多个列名称相同时,需要使用on=来指定哪一个列作为key,配合suffixes指定冲突列名
可以使用suffixes=自己指定后缀
删除行重复元素
使用duplicated()函数检测重复的行,返回元素为布尔类型的Series对象,每个元素对应一行,如果该行不是第一次出现,则元素为True
keep参数:指定保留哪一重复的行数据‘first’,‘last’,False
查找每行的重复值,返回布尔值
使用drop_duplicates()函数删除重复的行
inplace=True会改变数据,彻底删除
映射
映射的含义:创建一个映射关系列表(一般用字典表示),把values元素和一个特定的标签或者字符串绑定(给一个元素值提供不同的表现形式)
包含三种操作:
replace()函数:替换元素
最重要:map()函数:新建一列
rename()函数:替换索引
Series替换操作
单值替换
普通替换
字典替换(推荐)
多值替换
列表替换
参数
to_replace:被替换的元素
value:替换后的元素
单值映射
多值列表映射
多值字典映射
DataFrame使用replace同理Series,根据行索引,列索引,单个值进行替换
map()函数:新建一列 , map函数并不是df的方法,而是series的方法
map(字典) 字典的键要足以匹配所有的数据,否则出现NaN: —df[‘c’].map({85:’bw’,100:’yb’})
map()可以映射新一列数据
map()中可以使用lambd表达式
map()中可以使用方法,可以是自定义的方法
eg:map({to_replace:value})
注意 map()中不能使用sum之类的函数,for循环
创建映射关系
增加一列
map(func),可以传递自定义函数
注意:并不是任何形式的函数都可以作为map的参数。只有当一个函数具有一个参数且有返回值,那么该函数才可以作为map的参数
自定义 函数,使传入的参数+1
调用自定义函数 ,使得年龄+1
map(lambda 函数)
使得年龄+1
rename()函数:替换索引
使用rename()函数替换行索引
index 替换行索引
columns 替换列索引
level 指定多维索引的维度
改变行索引
改变列索引
使用聚合操作对数据异常值检测和过滤
使用df.std()函数可以求得DataFrame对象每一列的标准差
创建一个1000行3列的df 范围(0-1),求其每一列的标准差
保留小于两倍的第一列数据
将布尔值True作为行索引
…
给索引排序
使用.take()函数排序
take()函数接受一个索引列表,用数字表示,使得df根据列表中索引的顺序进行排序,axis=0,代表行索引
eg:df.take([1,3,4,2,5])
可以借助np.random.permutation()函数随机排序
In [49]:
随机排序
数据分类处理【重点】
数据聚合是数据处理的最后一步,通常是要使每一个数组生成一个单一的数值。
数据分类处理:
分组:先把数据分为几组
用函数处理:为不同组的数据应用不同的函数以转换数据
合并:把不同组得到的结果合并起来
数据分类处理的核心:
groupby()函数
groups属性查看分组情况
分组后进行聚合操作
找出哪些行是苹果的信息 使用==进行判断
按颜色查看各种颜色的水果的平均价格,并将各种颜色水果的平均价格和df进行汇总
高级数据聚合
使用groupby分组后,也可以使用transform和apply提供自定义函数实现更多的运算
df.groupby(‘item’)[‘price’].sum() <==> df.groupby(‘item’)[‘price’].apply(sum)
transform和apply都会进行运算,在transform或者apply中传入函数即可
transform和apply也可以传入一个lambda表达式
注意
transform 会自动匹配列索引返回值,不去重
apply 会根据分组情况返回值,去重