文章导读

Pandas 数据处理：从多列多行合并特定数据到单行

作者 2025年9月3日 12

本文旨在解决 pandas DataFrame 中，将多列多行数据根据特定条件筛选并合并到单行的问题。通过 stack、where、dropna 等 Pandas 函数的组合应用，可以高效地实现数据转换，提取出符合条件的关键信息，最终生成目标 DataFrame。文章将提供详细的步骤和代码示例，帮助读者掌握这种数据处理技巧。

在数据分析和处理中，经常会遇到需要从多列多行的数据中提取特定信息，并将这些信息合并到单行的情况。例如，在处理包含多个属性和对应值的表格数据时，我们可能需要根据某些条件筛选出有效的属性值，并将它们组合成一个新的数据行。Pandas 提供了强大的数据处理功能，可以帮助我们高效地完成这类任务。

以下介绍一种使用 Pandas 实现该目标的常用方法，主要依赖于 stack、where、dropna 等函数的组合。

步骤详解与代码示例

假设我们有如下 DataFrame (table A)：

import pandas as pd import numpy as np  data = {'position A': [-1, 3, -1, -1],         'Name A': ['tortise', 'sprite', 'nope', 'nope'],         'Position B': [-1, 2, -1, -1],         'Name B': ['monkey', 'coffee', 'nope', 'nope'],         'Position C': [2, -1, -1, -1],         'Name C': ['coca cola', 'bird', 'fish', 'nope'],         'Position D': [-1, -1, 5, -1],         'Name D': ['slug', 'monkey', 'root beer', 'nope'],         'Position E': [-1, -1, 1, -1],         'Name E': ['rooster', 'ostrich', 'tea', 'nope']} df = pd.DataFrame(data)  print("原始 DataFrame (Table A):n", df)

我们的目标是从这个 DataFrame 中提取出 Position 值不等于 -1 对应的 Name 值，并将这些 Name 值合并成一个新的 DataFrame (Table B)。

筛选 Name 列：

首先，使用 Filter 函数筛选出所有 Name 列。

name_df = df.filter(like='Name') print("n筛选后的 Name DataFrame:n", name_df)

堆叠 Name 列：

使用 stack 函数将 Name 列堆叠成一个 Series。

name_stacked = name_df.stack() print("n堆叠后的 Name Series:n", name_stacked)

筛选 Position 列：

类似地，筛选出所有 Position 列。

position_df = df.filter(like='Position') print("n筛选后的 Position DataFrame:n", position_df)

堆叠 Position 列并创建条件：

将 Position 列堆叠成一个 Series，并创建一个布尔条件，判断 Position 值是否不等于 -1。

position_stacked = position_df.stack() condition = position_stacked.ne(-1).values print("n堆叠后的 Position Series:n", position_stacked) print("n条件 (Position != -1):n", condition)

应用条件并清理数据：

使用 where 函数将不满足条件的 Name 值替换为 NaN，然后使用 dropna 函数删除 NaN 值。

filtered_name = name_stacked.where(condition).dropna() print("n应用条件并删除 NaN 后的 Name Series:n", filtered_name)

转换为 DataFrame：

最后，将 Series 转换成 DataFrame，并进行转置，得到最终的结果。

new_df = filtered_name.droplevel(0).sort_index().to_frame().T print("n最终 DataFrame (Table B):n", new_df)

完整代码

import pandas as pd import numpy as np  data = {'Position A': [-1, 3, -1, -1],         'Name A': ['tortise', 'sprite', 'nope', 'nope'],         'Position B': [-1, 2, -1, -1],         'Name B': ['monkey', 'coffee', 'nope', 'nope'],         'Position C': [2, -1, -1, -1],         'Name C': ['coca cola', 'bird', 'fish', 'nope'],         'Position D': [-1, -1, 5, -1],         'Name D': ['slug', 'monkey', 'root beer', 'nope'],         'Position E': [-1, -1, 1, -1],         'Name E': ['rooster', 'ostrich', 'tea', 'nope']} df = pd.DataFrame(data)  new_df = (df.filter(like='Name').stack()           .where(df.filter(like='Position').stack().ne(-1).values)           .dropna().droplevel(0).sort_index().to_frame().T )  print(new_df)

注意事项

确保 Position 和 Name 列的对应关系正确，这是数据处理的基础。
droplevel(0) 用于删除堆叠后 Series 的第一层索引，使结果更清晰。
sort_index() 用于对列名进行排序，保证结果的顺序性。
如果数据量很大，可以考虑使用更高效的数据处理方法，例如使用 NumPy 数组进行操作。

总结

本文介绍了一种使用 Pandas 将多列多行数据合并到单行的方法，通过 stack、where、dropna 等函数的组合应用，可以高效地实现数据转换。这种方法在数据分析和处理中非常实用，可以帮助我们从复杂的数据中提取关键信息，并进行进一步的分析和建模。掌握这种技巧，可以提高数据处理的效率和准确性。

评论（已关闭）

评论已关闭

Hello! 欢迎来到悠悠畅享网！

Pandas 数据处理：从多列多行合并特定数据到单行

评论（已关闭）