python的制图

本文介绍: plt.b ar: 是 Ma t p lo t lib 库中用于绘制柱状图的函数之一，它可以接受多组数据作为输入，每组数据可以包含 x 轴和 y 轴的坐标值。width：每个柱子的宽度，可以是一个数字或者一个数组，如果是一个数组，则每个柱子的宽度可以不同。line style: 折线的样式，可以是字符串（如 ‘–’）或者一个包含实线、虚线等样式的元组。m a rk e r: 数据点的标记样式，可以是字符串（如 ‘o’）或者一个包含圆形、正方形等样式的元组。x：x 轴的标签，可以是一个数组、列表或者 Se r i es 对象。

测试数据示例：

day	report_user_cnt	report_user_cnt_2	label
2023-10-01	3	3	欺诈
2023-10-02	2	4	欺诈
2023-10-03	6	5	欺诈
2023-10-04	2	1	正常
2023-10-05	4	3	正常
2023-10-06	4	4	正常
2023-10-07	2	6	正常
2023-10-08	3	7	正常
2023-10-09	3	12	正常
2023-10-10	8	1	正常
2023-10-12	5	2	正常
2023-10-13	6	3	欺诈
2023-10-14	2	4	欺诈
2023-10-15	7	5	欺诈
2023-10-16	9	12	欺诈
2023-10-17	6	15	欺诈
2023-10-18	6	5	欺诈
2023-10-19	5	6	1
2023-10-20	3	2	1
2023-10-21	1	5	1
2023-10-22	1	5	1
2023-10-23	2	5	1
2023-10-24	3	5	1
2023-10-25	1	5	1
2023-10-26	2	5	0
2023-10-28	1	5	0

1、柱形图

plt.b ar: 是 Ma t p lotlib 库中用于绘制柱状图的函数之一，它可以接受多组数据作为输入，每组数据可以包含 x 轴和 y 轴的坐标值。

plt.b ar() 函数的常用参数如下：
x：x 轴的标签，可以是一个数组、列表或者 Se r i es 对象。
height：每个柱子的高度，可以是一个数组、列表或者 Seri es 对象。
wi dt h：每个柱子的宽度，可以是一个数字或者一个数组，如果是一个数组，则每个柱子的宽度可以不同。
color：柱子的颜色，可以是字符串（如 ‘red’）或者 RGB 值（如 (0.1, 0.2, 0.5)）。
edge color：柱子边缘的颜色，可以是字符串或者 RGB 值。
line wi dth：柱子边缘的宽度，可以是一个数字。
tic k_label：x 轴的刻度标签，可以是一个数组、列表或者 Serie s 对象。
align：柱子的对齐方式，可以是 ‘center’、‘edge’ 或者 ‘tip’。
alpha：柱子的透明度，可以是一个 0 到 1 之间的数字。

代码：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 读取数据
d = pd.read_csv('test.csv', sep = 't')
x = d['label']
num_fraud = np.sum(d['label'] == 1)
num_normal = np.sum(d['label'] == 0)

plt.bar(['Fraud', 'Normal'], [num_fraud, num_normal], color='dodgerblue')
plt.ylabel('num')
plt.xlabel('label')
plt.title('diff label sample count')
plt.show()

在这里插入图片描述

2、折线图

plt.p lot 包含的参数有哪些？
x: x 轴坐标值，可以是一个数组、列表或者 Seri e s 对象。
y : y 轴坐标值，可以是一个数组、列表或者 Series 对象。
color: 折线的颜色，可以是字符串（如 ‘red’）或者 RGB 值（如 (0.1, 0.2, 0.5)）。
line style: 折线的样式，可以是字符串（如 ‘–’）或者一个包含实线、虚线等样式的元组。
line width: 折线的宽度，可以是一个数字。
marker: 数据点的标记样式，可以是字符串（如 ‘o’）或者一个包含圆形、正方形等样式的元组。
markersize: 数据点的大小，可以是一个数字。
lab el: 折线的标签，用于图例中显示。
alpha : 折线的透明度，可以是一个 0 到 1 之间的数字。

代码：
1）折线图展示单条数据

import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 读取数据
d = pd.read_csv('test.csv', sep = 't')
x = d['day']
y = d['report_user_cnt']

plt.figure(figsize=(14, 5))
plt.plot(x, y, c='dodgerblue', lw=3)
plt.title('report_user_cnt')
plt.ylabel('report_user_cnt')
plt.xlabel('day')
plt.show()

在这里插入图片描述
2）展示多条数据

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 读取数据
d = pd.read_csv('test.csv', sep = 't')
x = d['day']
y1 = d['report_user_cnt']
y2 = d['report_user_cnt_2']

plt.figure(figsize=(14, 5))
plt.plot(x, y1, c='dodgerblue', lw=3, label = "num2")
plt.plot(x, y2, c='red', label = "num1")
plt.title('report_user_cnt')
plt.ylabel('report_user_cnt')
plt.xlabel('day')
plt.legend()
plt.show()

在这里插入图片描述

3）散点图

plt.scatter是绘制散点图
x : x坐标
y : y坐标
s : 散点的大小
 c : 点的颜色
marker :点的标记形状
 alpha：散点的透明度
label : 散点图的标签

import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.scatter(np.random.rand(100), # 随机产生0-1之间的100个随机数
                np.random.rand(100),
                alpha=0.7,
                marker= 'o',
                c= 'b',
                label= 'mae')
plt.title('Reconstruction MAE')
plt.ylabel('Reconstruction MAE')
plt.xlabel('Index')
plt.show()

在这里插入图片描述

4）创建子图

plt.subplot()是Matplotlib库中用于创建子图的函数，
它的参数有三个，分别是
plt.subplot(nrows, ncols, index)。
其中，nrows和ncols表示子图网格的行数和列数，
index表示当前子图的位置。
比如plt.subplot(221)表示将当前子图设置为一个2行2列的网格中的第1个子图。
如果nrows和ncols的值都小于10，则可以将它们组合成一个两位数的整数，比如plt.subplot(221)表示将当前子图设置为一个2行2列的网格中的第1个子图。
如果nrows和ncols的值大于等于10，则需要使用三位数的整数来表示子图位置，比如plt.subplot(2, 2, 1)表示将当前子图设置为一个2行2列的网格中的第1个子图。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 读取数据
d = pd.read_csv('test.csv', sep ='t')
x = d['day']
y1 = d['report_user_cnt']
y2 = d['report_user_cnt_2']

plt.figure(figsize=(14, 5))
plt.subplot(211)
plt.plot(x, y1, c='dodgerblue', linestyle='-', lw=3, label = "num2")

plt.ylabel('report_user_cnt')
plt.xlabel('day')
plt.legend()

plt.subplot(212)
plt.plot(x, y2, c='red',marker='.',  label = "num1")
plt.ylabel('report_user_cnt_2')
plt.xlabel('day')
plt.legend()

plt.show()

在这里插入图片描述

5) python的高级 绘图plotly.express

1、绘制 直方图

plotly.exp ress库是一个基于plotly库的高级API，它可以让用户轻松地创建各种数据可视化图表，包括散点图、直方图、热力图、等高线图等。通过简单的函数调用，用户可以快速地生成各种图表，并进行自定义设置。此外，plotly.exp ress还支持各种交互式功能，比如缩放、平移、旋转、悬停等，可以让用户更加方便地探索和分析数据。

import plotly.express as px 
df['anomaly'] = df['label'].apply(lambda x: 'outlier' if x==-1  else 'inlier') 
# px.histogram()函数创建直方图，统计每个分数对应的样本个数
fig = px.histogram(df,x='scores',color='anomaly') 
fig.show()

在这里插入图片描述

histogram可以根据标签列表，分组后统计每个标签的个数，十分方便

import plotly.express as px
import pandas as pd

df = pd.read_csv('test.csv', sep ='t')

# px.histogram()函数创建直方图
fig = px.histogram(df,x='label',color='label', range_x = [0,3], opacity = 0.8, title = "标签分布")

fig.update_layout(
    title={
        'text': "标签分布",
        'y':0.95,
        'x':0.5,
        'xanchor': 'center',
        'yanchor': 'top'})

fig.show()

在这里插入图片描述

px.histogram()是Plotly Express中的直方图函数，用于绘制一维数据的分布情况。它的常用参数如下：
data_frame: 数据框，包含要绘制的数据。
x: 要绘制的数据列名或者数据列表。
nbins: 直方图的箱子数量，可以是整数或者字符串（如“sturges”、“fd”、“sqrt”等）。
range_x: 要绘制的数据的范围，可以是一个元组或列表，如(0, 10)。
color: 按照某个列对数据进行分组，每组用不同的颜色绘制。
opacity: 直方图的透明度，取值范围为0-1。
barmode: 直方图的模式，可以是“overlay”（默认）、“stack”或“group”。
title: 直方图的标题。

2、创建一个3D散点图

import plotly.express as px
import pandas as pd
df = pd.read_csv('test.csv', sep ='t')
fig = px.scatter_3d(df,x='petal width (cm)', 
                       y='sepal length (cm)', 
                       z='sepal width (cm)', 
                       color='anomaly') 
fig.show()