【Pandas学习笔记02】 - Golang教程网

概述

Pandas 是基于 NumPy 构建的库，在数据处理方面可以把它理解为 NumPy 加强版，同时 Pandas 也是一项开源项目。它用于数据挖掘和数据分析，同时也提供数据清洗功能。

在本文中，主要介绍Pandas在数据处理中的高阶用法，包括：数据的合并、分组和拆分等用法。如果学过数据库的SQL语法，本文理解起来会非常快。

数据合并

数据准备

DataFrame

import pandas as pd

df_a = pd.DataFrame(columns=['name', 'rank'], data=[['C', 1], ['java', 2], ['python', 3], ['golang', 4]])
df_b = pd.DataFrame(columns=['name', 'year'], data=[['java', 2020], ['python', 2021], ['golang', 2022]])

merge()

howon

# 通过指定 columns 中的 name 内连接
df_tmp = pd.merge(df_a, df_b, on='name', how='outer')
print(df_tmp)

# ========打印========
    name  rank  year
0    java     2  2020
1  python     3  2021
2  golang     4  2022

# 通过指定 columns 中的 name 左连接
df_tmp = pd.merge(df_a, df_b, on='name', how='left')
print(df_tmp)

# ========打印========
    name  rank    year
0       C     1     NaN
1    java     2  2020.0
2  python     3  2021.0
3  golang     4  2022.0

# 通过指定 columns 中的 name 右连接
df_tmp = pd.merge(df_a, df_b, on='name', how='right')
print(df_tmp)

# ========打印========
    name  rank  year
0    java     2  2020
1  python     3  2021
2  golang     4  2022

# 如果合并两个 DataFrame 不含公共的 columns ，可以直接指定匹配的字段
df_c = pd.DataFrame(columns=['name1', 'year'], data=[['java', 2020], ['python1', 2021], ['golang1', 2022]])
df_tmp = pd.merge(df_a, df_c, left_on='name', right_on='name1')
print(df_tmp)

# ========打印========
  name  rank name1  year
0  java     2  java  2020

数据分组

数据准备

DataFrame

import pandas as pd

df_a = pd.DataFrame(columns=['name', 'nums'], data=[['python', 1], ['java', 2], ['python', 3], ['java', 4]])

group()

# 获取分组后的数据集中每个数据的数量
df_tmp = df_a.groupby('name').size()
print(df_tmp)

# ========打印========
name
java      2
python    2
dtype: int64

# 将分组后的数据集，根据 nums 字段进行求和
df_tmp = df_a.groupby('name')['nums'].sum()
print(df_tmp)

# ========打印========
name
java      6
python    4
Name: nums, dtype: int64

# 获取分组后的数据集的大小
df_tmp = df_a.groupby('name').size()
print(df_tmp)

# ========打印========
name
java      3
python    2
Name: nums, dtype: int64

数据拆分

数据准备

DataFrame

import pandas as pd

df_a = pd.DataFrame(columns=['name', 'rank'], data=[['C_no1', 1], ['java_no2', 2], ['python_no3', 3], ['golang', 4]])

split()

# 数据拆分，对 columns 中的某列的数据某个符号匹配拆分，expand：为True可以直接将分列后的结果转换成DataFrame
df_tmp = df_a['name'].str.split('_', 1, expand=True)
print(df_tmp)

# ========打印========
       0     1
0       C   no1
1    java   no2
2  python   no3
3  golang  None

# 数据拆分，对拆分后的数据再次与原数据合并
df_tmp = pd.merge(df_a, df_a['name'].str.split('_', 1, expand=True), how='left', left_index=True, right_index=True)
print(df_tmp)

# ========打印========
        name  rank       0     1
0       C_no1     1       C   no1
1    java_no2     2    java   no2
2  python_no3     3  python   no3
3      golang     4  golang  None

数据可视化

matplotlib

# plot() 方法生成相应的线性图形
df_a = pd.DataFrame(columns=['name', 'rank'], data=[['C_no1', 1], ['java_no2', 2], ['python_no3', 3], ['golang', 4]])
df_a.plot()

总结

本文主要介绍 Pandas 工具集的高阶操作，操作原理与数据库中的SQL有着异曲同工之妙，能够帮助我们解决日常数据的分析处理等操作。