1.皮尔逊相关系数(Pearson correlation)
2、斯皮尔曼相关系数(Spearman correlation)
前言
一、基本概念及二者适用范围比较
1、什么是相关性分析
相关分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个因素的的相关密切程度,相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。
2、什么是相关系数
- 皮尔逊相关系数(Pearson correlation): 用于衡量两个连续性随机变量间的相关系数
- 斯皮尔曼相关系数(Spearman correlation) :秩相关系数,根据原始数据的等级排序进行求解,也称为等级变量之间的皮尔逊相关系数
以上两种系数是两个变量之间变化趋势的方向以及程度,取值范围为[-1, 1]。当接近1时,表示两者具有强烈的正相关性;当接近-1时,表示有强烈的的负相关性;而值接近0,则表示相关性很低。
3、适用范围比较
斯皮尔曼相关系数和皮尔逊相关系数选择:
1.连续数据,正态分布,线性关系,使用pearson相关系数最为恰当,用spearman相关系数也可以, 就是效率没有pearson相关系数高。
2.上述三个条件均满足才能使用pearson相关系数,否则就用spearman相关系数。
3.定序数据之间也只用spearman相关系数,不能用pearson相关系数。
注:(1)定序数据是指仅仅反映观测对象等级、顺序关系的数据,是由定序尺度计量形成的,表现为类别,可以进行排序,属于品质数据。
例如,对成绩进行排名后,对排名进行数学运算就没有意义了。定序数据最重要的意义代表了一组数据中的逻辑顺序。
(2)斯皮尔曼相关系数的适用条件比皮尔逊相关系数要广,只要数据满足单调关系(例如线性函数、指数函数、对数函数等)就能够使用。
二、相关系数
1.皮尔逊相关系数(Pearson correlation)
当两个变量都是正态连续变量,且两者之间呈线性关系时,则可以用Pearson来计算相关系数。取值范围[-1,1]。计算公式如下:
从形式上看即为概率论中所学的相关系数。
变量相关强度:
相关程度 | 极强相关 | 强相关 | 中等程度相关 | 弱相关 | 极弱相关或无相关 |
相关系数绝对值 | 0.8——1 | 0.6——0.8 | 0.4——0.6 | 0.2——0.4 | 0——0.2 |
1、线性检验
import numpy as np
from matplotlib import pyplot as plt
def linear_test():
#为显示线性关系手动输入的数据
x = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
y = np.array([1, 1, 3, 4, 3, 6, 5, 7, 9, 8, 9])
fig = plt.figure()
ax1 = fig.add_subplot(1, 1, 1)
ax1.set_title('Linear Test')
ax1.set_xlabel('X')
ax1.set_ylabel('Y')
ax1.scatter(x, y, c='k', marker='.')
plt.savefig('linear_test.png')
linear_test()
2、正态检验
def normal_test():
data = np.array([1, 2, 5, 4, 4, 6, 7, 3, 9, 5, 4, 7, 1, 2, 9])
u = data.mean()
std = data.std()
result = stats.kstest(data, 'norm', (u, std))
print(result)
结果:KstestResult(statistic=0.12726344134326134, pvalue=0.9427504251048978)
结果返回两个值:statistic → D值,pvalue → P值
H0:样本符合
H1:样本不符合
p值>0.05则接受H0,该数据为正态分布。
3、求相关系数
若以上验证均成功则采取皮尔逊相关系数进行相关性分析:
import pandas as pd
# 读取数据
df = pd.read_excel('spearman_data.xlsx')
df = pd.DataFrame(df)
# print(df)
# 生成相关性矩阵
rho = df.corr(method='pearson')
print(rho)
def heatmapplot():
plt.rcParams['font.family'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
sns.heatmap(rho, annot=True)
plt.title('Heat Map', fontsize=18)
plt.savefig('heatmap1.png', dpi=300)
2、斯皮尔曼相关系数(Spearman correlation)
1、秩相关系数
秩相关系数(Coefficient of Rank Correlation),又称等级相关系数,反映的是两个随机变量的变化趋势方向和强度之间的关联,是将两个随机变量的样本值按数据的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一种统计量。它是反映等级相关程度的统计分析指标,常用的等级相关分析方法有Spearman相关系数和Kendall秩相关系数等。主要用于数据分析。斯皮尔曼相关系数被定义成等级变量之间的皮尔逊相关系数。
2、使用条件
3、求相关系数
- 表示第i个数据对的位次值之差
- n 总的观测样本数
使用python求解与上文类似(metho = ‘spearman’)
3、结果对比
两种相关系数的热力图对比:
pearson:
spearman:
可见,对于同组数据,在满足了正态和线性检验的条件下,Pearson所得结果相对于Spearman会更加的精确和严格。
总结
球球各位点个赞。
原文地址:https://blog.csdn.net/weixin_67565775/article/details/126533149
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.7code.cn/show_6921.html
如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱:suwngjj01@126.com进行投诉反馈,一经查实,立即删除!