Pandas rank用法及并列处理技巧

时间：2026-03-16

结论：method='min'最符合直觉，但需结合业务——并列是否占坑、是否连续编号；默认'average'易致Excel不一致；降序用ascending=False；NaN处理推荐na_option='drop'。

Pandas rank怎么用_数据排名与各种并列处理方法(method参数)

rank() 的 method 参数到底选哪个？

直接说结论：method='min' 最符合多数人对“排名”的直觉，但实际得看业务规则——比如并列时要不要占坑、要不要连续编号。

常见错误是默认用 method='average'（平均秩），结果发现 Excel 里排出来不一样，或者报表数字对不上。这是因为 Excel 的 RANK.EQ 默认行为接近 method='min'，而 Pandas 默认却是 'average'。

method='min'：并列项取最小名次，比如 [10, 10, 8] → [1, 1, 3]（两个 10 都算第 1 名，8 是第 3 名）
method='max'：并列项取最大名次，[10, 10, 8] → [2, 2, 1]（两个 10 都算第 2 名）
method='average'：并列项取平均名次，[10, 10, 8] → [1.5, 1.5, 1]（默认值，但常被误用）
method='dense'：并列不跳名次，[10, 10, 8] → [1, 1, 2]（适合“段位制”场景）
method='first'：按出现顺序给名次，[10, 10, 8] → [1, 2, 3]（稳定排序，适合去重或分页）

升序 vs 降序：pandas rank 默认是升序，但业务常要“分数越高名次越前”

很多人调用 df['score'].rank() 后发现高分排在后面，是因为 rank() 默认按数值升序排：小值名次靠前。而考试、评分等场景恰恰相反。

解决方法不是手动倒序数据，而是用 ascending=False：

df['rank'] = df['score'].rank(method='min', ascending=False)

注意：ascending 和 method 是正交的，别只改一个。另外，ascending=False 不影响 method 的逻辑——它只是把整个排序方向翻转，method='min' 在降序下依然表示“并列时取更小的名次数字”，也就是更高分拿到更小的 rank 值（如 1、1、3）。

空值（NaN）怎么处理？na_option 很关键

默认情况下，rank() 把 NaN 当作最大值处理（即 na_option='keep'），排在最后且名次为 NaN。这容易引发后续计算中断，比如做 top N 过滤时漏掉有效数据。

常见需求有三种：

忽略 NaN：用 na_option='drop'，它们不参与排名，结果中对应位置仍是 NaN（推荐用于统计类分析）
把 NaN 当最小：用 na_option='top'，它们统一排第 1 名（慎用，除非明确要求“缺考=最低分”）
把 NaN 当最大（默认）：用 na_option='bottom'，它们排在最后（比如“未填写=最差”，但名次数字会跳空）

示例：

df['score'].rank(method='min', na_option='drop')

如果没加这个参数，又恰好有缺失值，rank 结果里混着 NaN，下游 df.query('rank <= 10') 就可能返回比预期少的行——因为 NaN 不满足任何比较条件。

groupby 后 rank 容易漏掉 ascending 或 method

按组排名（比如每个班级内排分数）时，新手常写成：

df['class_rank'] = df.groupby('class')['score'].rank()

这看似没问题，但默认 method='average' + ascending=True，很可能和业务口径冲突。更危险的是：不同班级人数不同，average 会导致名次分布不一致（比如 3 人班的平均秩是 1/2/3，5 人班可能是 1.5/1.5/3/4/5），后续做跨班比较就失真。

稳妥做法是显式声明：

df['class_rank'] = df.groupby('class')['score'].rank(method='min', ascending=False)

还要注意 groupby.rank() 不支持 na_option='drop'（会报错），只能用 'keep' 或 'bottom'。如果组内有 NaN 又想排除，得先 dropna() 再分组，或者用 apply 手动控制。

复杂点在于：rank 是逐组独立计算的，但名次数字本身没有全局意义；如果后续要做“全校前 10%”，就不能直接用 groupby.rank() 的结果，得先归一化或换算法。

本文转载于：互联网如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

Pandas rank用法及并列处理技巧

rank() 的 method 参数到底选哪个？

升序 vs 降序：pandas rank 默认是升序，但业务常要“分数越高名次越前”

空值（NaN）怎么处理？na_option 很关键

groupby 后 rank 容易漏掉 ascending 或 method

同类商品

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

CorelDRAW X8 简体中文【标准版 + Win】

相关文章