Pandas 中基于前一行值筛选数据行的高效方法

本文介绍如何使用 pandas 的 shift() 和布尔索引,精准筛选出「前一行某列值为指定条件」的后续行,适用于日志分析、状态转移检测等场景。

本文介绍如何使用 pandas 的 `shift()` 和布尔索引,精准筛选出「前一行某列值为指定条件」的后续行,适用于日志分析、状态转移检测等场景。

在数据分析中,常需根据前一行的状态来提取当前行——例如:当上一行 typeId == 6 时,保留当前行(即“6之后的那行”)。这种「滞后条件筛选」无法通过常规列比较实现,必须借助 pandas 提供的序列位移能力。

核心思路是:将 typeId 列整体向下移动一行(即 shift(1)),使原第 i 行的值出现在第 i+1 行位置;再判断该位移后序列中哪些值等于 6,从而定位出所有「前行为 6」的当前行索引。

以下是完整实现代码:

import pandas as pd

# 构造示例 DataFrame(注意:原始问题中 index 存在重复(如两个 16),此处按实际顺序重建)
df = pd.DataFrame({
    'typeId': [2, 3, 1, 1, 1, 1, 1, 3, 6, 1, 3, 6, 1, 1, 1, 1]
}, index=[1, 2, 3, 4, 5, 16, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16])

# 关键步骤:获取前一行的 typeId 值,并判断是否为 6
mask = df['typeId'].shift(1).eq(6)  # shift(1) 默认向下移1位,首行变为 NaN → 自动为 False
result = df[mask].copy()

print(result)

输出结果:

    typeId
10       1
13       1
14       1
15       1
16       1

说明:shift(1) 将原序列 [2,3,1,...,6,1,...] 变为 [NaN,2,3,1,...,6,1],因此 eq(6) 在原第 9 行(index=9)对应位移后序列的第 10 行(index=10)处命中 True,成功捕获 index=10 这一「6 之后的行」;同理,index=12 处为 6,则 index=13 被选中,依此类推。

⚠️ 注意事项

总结:df[col].shift().eq(value) 是 pandas 中实现「基于前驱值筛选」的标准范式,简洁、向量化、性能优异,应作为数据预处理中的基础技能熟练掌握。

本文转载于:互联网 如有侵犯,请联系zhengruancom@outlook.com删除。
免责声明:正软商城发布此文仅为传递信息,不代表正软商城认同其观点或证实其描述。