文章导读

使用 Pandas 将多行多列数据合并为单行

作者 2025年9月3日 9

本文旨在介绍如何使用 pandas 库将 DataFrame 中具有对应关系的多个 position/Name 列合并为单行，并根据 Position 列的值筛选出有效数据。通过 stack、where、dropna 等 Pandas 函数的组合运用，可以高效地实现数据转换和清洗，最终得到目标格式的数据。

数据准备

首先，我们需要创建一个 Pandas DataFrame，模拟原始数据。以下是一个示例：

import pandas as pd  data = {'Position A': [-1, 3, -1, -1],         'Name A': ['tortise', 'sprite', 'nope', 'nope'],         'Position B': [-1, 2, -1, -1],         'Name B': ['monkey', 'coffee', 'nope', 'nope'],         'Position C': [2, -1, -1, -1],         'Name C': ['coca cola', 'bird', 'fish', 'nope'],         'Position D': [-1, -1, 5, -1],         'Name D': ['slug', 'monkey', 'root beer', 'nope'],         'Position E': [-1, -1, 1, -1],         'Name E': ['rooster', 'ostrich', 'tea', 'nope']}  df = pd.DataFrame(data)  print(df)

这段代码创建了一个名为 df 的 DataFrame，包含了 Position 和 Name 列，模拟了原始数据。

数据转换

核心思路是使用 stack 函数将 DataFrame 转换为 Series，然后根据 Position 列的值进行筛选，最后再将 Series 转换回 DataFrame。

new_df = (df.Filter(like='Name').stack()           .where(df.filter(like='Position').stack().ne(-1).values)           .dropna().droplevel(0).sort_index().to_frame().T )  print(new_df)

这段代码主要做了以下几件事：

df.filter(like=’Name’): 筛选出包含 ‘Name’ 的列。
.stack(): 将筛选出的列堆叠成一个 Series。
df.filter(like=’Position’).stack().ne(-1).values: 筛选出包含 ‘Position’ 的列，堆叠成 Series，并判断值是否不等于 -1，将结果转换为 numpy 数组。
.where(…): 根据 Position 列的条件，保留 Name 列中满足条件的值，否则设置为 NaN。
.dropna(): 移除 NaN 值。
.droplevel(0): 移除最外层的索引。
.sort_index(): 对索引进行排序。
.to_frame().T: 将 Series 转换为 DataFrame，并转置。

结果展示

运行上述代码后，将会得到以下结果：

    Name A   Name B      Name C     Name D  Name E 0   sprite   coffee   coca cola  root beer     tea

这正是我们期望的结果，将多行多列的数据合并为了单行，并根据 Position 列的值进行了筛选。

注意事项

确保 Position 和 Name 列的对应关系正确。
可以根据实际情况调整筛选条件，例如，将 -1 替换为其他值。
如果数据量很大，可以考虑使用更高效的 Pandas 函数，例如 apply。

总结

本文介绍了如何使用 Pandas 将 DataFrame 中具有对应关系的多个 Position/Name 列合并为单行，并根据 Position 列的值筛选出有效数据。通过 stack、where、dropna 等 Pandas 函数的组合运用，可以高效地实现数据转换和清洗。这种方法可以应用于各种需要将多行多列数据合并为单行的场景，例如，数据清洗、数据转换、数据分析等。掌握这种方法可以帮助你更高效地处理数据，提高工作效率。

评论（已关闭）

评论已关闭

Hello! 欢迎来到悠悠畅享网！