【第三章】数据读写和pandas

  • 数据采集—数据处理—展示—用户感知

数据的读写

读取多个工作表,返回字典

指定读取位置

有时候有表头之类,不能从头开始读

写入excel

pd.to__excel( excel_writer , )

读写JSON文件

类似字典,可以转成数据框

读取MySQL数据库

需要数据库软件安装不同的连接库

pandas数据处理

DataFrame选取

选列df[’y’]
选多列df[’x’,’y’]
选行df.loc[1,:]
获取数据框的行数 df.shape[0] len(df)
获取数据框的列数 df.shape[1]
获取数据框的维数 df.shape[]
对某一列重命名df.rename(columns=[’x’,’y’])》》》

多重索引

df = df.set_index(['X','year'])
有先后顺序,越前面级别越高
选择某个元素
  • df.loc(['x','y'],'value')

网格分布数据的创建

低维转高维
  • np.meshgrid(a,b)
  • pd.DataFrame({'x':x.flatten(),'Y':y.flatten()})

网格变换

二维转一维,宽数据转长数据
  • pd.melt()方法
    • id.vers('x')索引值
    • variable.name('year')降维的属性名

透视表

长数据转宽数据

变量变换

数学运算产生新的行或列
  • 按行求和得列
  • 按列求和得行

排序

df_melt.sort_values(by=['values','year'],ascending=Ture)

数据框拼接

扩展纵轴方向

要求属性名一致
pd.concat([df1,df2],axis=0)

扩展横轴方向

pd.concat([df1,df2],axis=1)

删除

融合

使用其中一个共同列作为融合依据
pd.merge(left=df1,right=df2,how="left",on="x")
  • how融合方法:保留左表left,保留右表right,取交,取并
  • on是融合一句

两个表的不同列名融合

  • left_on="x",right_on="g"

数据框分组操作

df.apply()
  • 按行求和
  • 按列求和
  • 单列运算
  • 多列运算
  • 分组操作
    • df_melt.groupby('x',as_index=False)
  • 求均值
  • 求方差
  • 分组聚合
    • .aggregate({np.mean,np.median})
    • .transforme()
    • 过滤.filter()
Prev
【第一章】概述
Next
【第四章】类别比较型图表
Loading...
Article List
一个NotionNext搭建的博客
数据库系统概论
大数据原理与应用
javaWeb应用开发基础教程
python
毕业设计
大数据技术综合应用
实训-航空数据系统
java面向对象程序设计
数据结构
算法分析与设计
SPARK
Python爬虫大数据采集与挖掘
云计算
概率论与数理统计
数字逻辑
计算机网络
计算机组成原理
linux
操作系统
人工智能导论
数据仓库与数据挖掘
数据可视化
大数据安全与隐私保护
c语言
C++