np.argsort排序问题(关于位次)-含GitHub上在numpy项目下提问的回复-总结可行方案

本文介绍: 讨论一个经常容易遇见的雷argsort,与获取位序的关系,咨询numpy官方人员,并得到了回复解答

这里先直接给出结论，np.argsort()返回的索引排序与实际位次在确实在某些情况下会出现一致，但后来numpy的开发人员给我举例回复这是巧合，如果想获取位次，可以考虑使用scipy.stats.rankdata()方法，也组合numpy中其他函数。

在这里插入图片描述

事情是这样的在做项目的时候我遇到了这样一个问题，我要对某一个对象的收入进行分析，emmmm, 还是要举一个实际的例子，假设我要对一种奶茶店的收入进行分析，例如我要分析10个店面的这个月的收入情况，每个蜜雪冰城店面的收入由三部分组成，奶茶，果茶，冰淇淋。

店铺编号	总收入	果茶收入	奶茶收入	冰淇淋收入
店铺1	1954	100	911	754
店铺2	1663	300	949	705
店铺3	1765	200	822	388
店铺4	1437	500	911	252
店铺5	1410	400	105	932

首先先根据总收入这一列的数据对每一行进行排序
以下是常用的代码

# 原始列表
original_list = [
    ['店铺1', 1954, 100, 911, 754],
    ['店铺2', 1663, 300, 949, 705],  
    ['店铺3', 1765, 200, 822, 388],  
    ['店铺4', 1437, 500, 911, 252],
    ['店铺5', 1410, 400, 105, 932]
]

# 使用.sort()方法根据总收入对列表进行排序
original_list.sort(key=lambda x: x[1], reverse=True)

那么从大到小的排序结果如下，按照顺序其实就是总收入的排名

店铺编号	总收入	果茶收入	奶茶收入	冰淇淋收入
店铺1	1954	100	911	754
店铺3	1765	200	822	388
店铺2	1663	300	949	705
店铺4	1437	500	911	252
店铺5	1410	400	105	932

好那接下来我想在这个表里在果茶收入，奶茶收入，冰淇淋收入前面各加一列，分别为果茶收入排名，奶茶收入排名，冰淇淋收入排名。

店铺编号	总收入	果茶收入排名	果茶收入	奶茶收入排名	奶茶收入	冰淇淋收入排名	冰淇淋收入
店铺1	1954	待计算	100	待计算	911	待计算	754
店铺3	1765	待计算	200	待计算	822	待计算	388
店铺2	1663	待计算	300	待计算	949	待计算	705
店铺4	1437	待计算	500	待计算	911	待计算	252
店铺5	1410	待计算	400	待计算	105	待计算	932

然后就像用什么函数, 这时候忽然依稀的想起，数据对应的位置就是索引+1, 例如索引为0的数据实际上是列表的第1个数据，也就是位置为1，然后好像记得np.argsort()就是返回排序的索引，索引+1表示的应该就是他的位置，又排序了又有位置，虽然下意识有点怀疑感觉哪里不对，但是决定还是直接用一下再说，
然后我就使用了类似于果茶排名的数据进行了下面的操作(默认从小到大)

import numpy as np
data = [100, 200, 300, 500, 400]
rank = np.argsort(data) + 1
print(rank)
# [1 2 4 5 3]

import numpy as np
data = [1, -1, 3, -1, 4]
rank = np.argsort(data) + 1
print(rank)
# [2 4 1 3 5]

在浏览了各种资料之后，有人说可能是排序方式选择的问题，默认是快速排序，快速排序有可能有问题，我就把文档里的np.argsort()的四种排序方式实验了一遍，加上好像其他人好像也都是对有重复数据的排序结果产生了质疑。此时我把我同样做算法的也是刚毕业的研究生航宝(昵称)叫了过来，让其帮我在stackflow上也简单搜索了下,也有人提出了这个问题，但是但是没有能直接一眼瞄到的问题的答案(也不排除看的不认真)。我俩也是鬼使神差的觉得这应该是由于有重复数据的问题。

import numpy as np
data = [1, -1, 3, -1, 4]

def my_sort(x):
    arg_x = np.sort(x)
    rank = [np.where(arg_x == i)[0][0] for i in x]
    return np.array(rank)

rank = my_sort(data) + 1
print(rank)
# [3 1 4 1 5] 现结果
# [2 4 1 3 5] 原结果

然后找航宝来帮我验证，发现确实可以实现获得位序的功能，然后航宝提议，去GitHub上问一问，顺便搜一搜，我俩在问题里输入argsort同样也是简单翻了一翻，我俩认为这应该是个应该比较常见的问题，应该一搜就能搜到所以也没怎么往后面翻，发现没有之后，我俩就开始着手准备提问，点开了issue，在写issue中，我们又看了一遍np.argsort(data)官方文档的描述，述其描述如下
np.argsort performs an indirect sort on an array, returning the indices that would sort the array.
我们两个人又重新理解了一遍这个意思，np.argsort 返回一个不是对一个array直接排序结果，返回的是indices(索引们)，而这些indices会对这个数组进行排序。

我们翻译成土话，可以理解的就是你按照np.argsort(data)的返回结果(一个有顺序的包含索引值的列表)，把列表中的索引值替换为data[索引值]，最后你会得到一个有序的数组。

因此我们关闭了提出issue的选项，因为np.argsort()本身没有问题不是BUG，转而选择了一个给numpy增添新功能的选项，写完正文发送了之后，又上面提示的邮箱发了邮件。以下是邮件内容
不敢兴趣可以跳过

x = [1, 2, 5, 4]
rank = np.argsort(x)
print(rank)
# [0 1 3 2]

x = [1, 4, 1, 1, 2, 4, 5]
rank = np.argsort(x)
print(rank)
# [0 2 3 4 1 5 6]

def my_sort(x):
    arg_x = np.sort(x)
    rank = [np.where(arg_x == i)[0][0] for i in x]
    return np.array(rank)

x = [1, 4, 1, 1, 2, 4, 5]
rank_arg = np.argsort(x)
rank_position = my_sort(x)
print("rank_arg",rank_arg)
print("rank_position",rank_position)
# rank_arg [0 2 3 4 1 5 6]
# rank_position [0 4 0 0 3 4 6]

x = [1, 2, 5, 4]
rank_arg = np.argsort(x)
rank_position = my_sort(x)
print("rank_arg",rank_arg)
print("rank_position",rank_position)
# rank_arg [0 1 3 2]
# rank_position [0 1 3 2]

That is not what argsort is intended or documented to do. It returns an array of indices into x such that if you took the values from x in that order, you would get a sorted array. That is, if x were sorted into the array sorted_x, then x[rank[i]] == sorted_x[i] for all i in range(len(x)). The indices in rank are positions in x, not positions in sorted_x. They happen to correspond in this case, but that’s a coincidence that’s somewhat common in these small examples. But consider [20, 30, 10, 40]:
（他在下面的代码中对他提到的例子使用np.argsort()处理，发现虽然没有重复数据但是返回的仍然不正确的位次信息,然后大佬自己写写了一个position()内容和我的不同，但是返回了同样的结果，这里的np.searchsorted()的作用是查找数据在目标数组中的插入位置）

>>> x = np.array([20, 30, 10, 40])
>>> ix = np.argsort(x)
>>> def position(x):
...     sorted_x = np.array(x)
...     sorted_x.sort()
...     return np.searchsorted(sorted_x, x)
...     
>>> ip = position(x)
>>> ix
array([2, 0, 1, 3])
>>> ip
array([1, 2, 0, 3])

>>> np.argsort(np.argsort(x))
array([1, 2, 0, 3])

用两次argsort你看,也能返回这个结果(当时我：啊😦(二声)，这也行)，这取决于你对重复项的处理想达到什么效果，你是想返回重复值在排序之后的数组中第一次出现的索引，还是想返回特定项被排序到的索引。
This double-argsort is what you seem to be looking for, though it depends on what you want from the handling of duplicates (do you return the first index into the sorted array with the same value as in my position() implementation, or do you return the index that particular item was actually sorted to).

import numpy as np
from scipy.stats import rankdata

# 创建一个数组
x = np.array([40, 20, 30, 20, 40])

# 使用 rankdata 对数组中的元素进行排名，分别使用四种不同的方法
ranks_average = rankdata(x, method='average')  # 默认方法，平均排名
# [4.5, 1.5, 3. , 1.5, 4.5]
ranks_min = rankdata(x, method='min')          # 最小排名
# [4, 1, 3, 1, 4]
ranks_max = rankdata(x, method='max')          # 最大排名
# [5, 2, 3, 2, 5]
ranks_dense = rankdata(x, method='dense')      # 密集排名
# [3, 1, 2, 1, 3]
ranks_ordinal = rankdata(x, method='ordinal')  # 序数排名
# [4, 1, 3, 2, 5]

这是第二种方法,其等效于scipy.stats.rankdata的序数排名模式,代码精简,看起来比较炫酷

import numpy as np
x = np.array([40, 20, 30, 20, 40])
rank = np.argsort(np.argsort(x))+1
print(x)
# [4 1 3 2 5]

这是第三种,在邮件中Robert Kern回复我的position 函数
等效于scipy.stats.rankdata的最小排名模式,个人认为这个不是非常好的选择,首先他肯定不如scipy.stats.rankdata精简,而且又引入了一个新的知名度可能不是很高的函数np.searchsorted

import numpy as np
x = np.array([40, 20, 30, 20, 40])

def position(x):
    sorted_x = np.array(x)
    # 排序
    sorted_x.sort()
	# 寻找插入位置
    return np.searchsorted(sorted_x, x)

rank = position(x) + 1
print(rank)
# [4 1 3 1 4]

import numpy as np
x = np.array([40, 20, 30, 20, 40])
def position_min(x):
    x = np.array(x)
    # 排序
    arg_x = np.sort(x)
	# 查找重复元素在排序数组中第一次出现的位置 
	# np.where() 返回的是元组 np.where()[0] 取元组里包含索引值的列表
	# np.where()[0][0] 第一次出现的索引 np.where()[0][-1]最后一次
    rank = [np.where(arg_x == i)[0][0] for i in x]
    return np.array(rank)

rank = position_min(x) + 1
print(rank)
# [4 1 3 1 4]

import numpy as np
x = np.array([40, 20, 30, 20, 40])
def position_max(x):
    x = np.array(x)
    # 排序
    arg_x = np.sort(x)
	# 查找重复元素在排序数组中第一次出现的位置 
	# np.where() 返回的是元组 np.where()[0] 取元组里包含索引值的列表
	# np.where()[0][0] 第一次出现的索引 np.where()[0][-1]最后一次
    rank = [np.where(arg_x == i)[0][-1] for i in x]
    return np.array(rank)

rank = position_max(x) + 1
print(rank)
# [5 2 3 2 5]