文章导读

Pandas DataFrame 值比对加速技巧：避免循环的有效方法

作者 2025年9月4日 13

本文旨在介绍如何使用 pandas 高效地比较两个 DataFrame 中的值，并统计第一个 DataFrame 中有多少行满足第二个 DataFrame 中特定行的范围条件。我们将探讨如何避免使用低效的循环，利用 Pandas 的内置函数和交叉合并来显著提升计算速度。

问题背景

在数据分析中，经常需要比较两个 DataFrame 中的数据，并根据一定的条件进行筛选或统计。例如，假设我们有两个 DataFrame：df1 包含日期和一些数值列（如 High、Mid、Low），df2 包含日期范围（Start、Top、Bottom）。我们需要检查 df1 中的每一行，判断其 High 值是否大于 df2 中对应行的 Bottom 值，并且 df1 中 Mid 和 Low 的最大值是否小于 df2 中对应行的 Top 值。

解决方案：利用交叉合并避免循环

传统的循环方法效率较低，尤其是在处理大型 DataFrame 时。一种更有效的方法是使用 Pandas 的 merge 函数进行交叉合并（cross merge），然后再进行条件筛选和计数。

以下是具体步骤和示例代码：

交叉合并 DataFrame：

首先，使用 merge 函数将 df1 和 df2 进行交叉合并。交叉合并会生成一个包含 df1 和 df2 所有行组合的新 DataFrame。

import pandas as pd  # 示例数据 df1 = pd.DataFrame({     'date': ['2023-08-03 00:00:00', '2023-08-03 12:00:00', '2023-08-04 12:00:00', '2023-08-05 00:00:00', '2023-08-05 20:00:00', '2023-11-26 20:00:00', '2023-11-28 00:00:00', '2023-11-28 16:00:00', '2023-11-29 08:00:00', '2023-11-30 04:00:00'],     'High': [29249.8, 29395.8, 29305.2, 29099.9, 29061.6, 37732.1, 37341.4, 38390.7, 38419.0, 38148.9],     'Mid': [29136.6, 29228.1, 29250.1, 29045.3, 29047.1, 37469.9, 37138.2, 38137.2, 38136.3, 37800.1],     'Low': [29152.3, 29105.0, 29137.1, 29073.0, 29044.0, 37370.0, 37254.1, 37534.4, 38112.0, 38040.0] }) df2 = pd.DataFrame({     'Start': ['2023-11-28 00:00:00', '2023-11-24 12:00:00'],     'Top': [37341.4, 38432.9],     'Bottom': [37138.2, 37894.4] })  df1['Date'] = pd.to_datetime(df1['Date']) df2['Start'] = pd.to_datetime(df2['Start'])  df2['Match'] = (df2.reset_index()                    .merge(df1, how='cross')                    .loc[Lambda x:                         (x.Start !=  x.Date) &                         (x.Bottom < x.High) &                         (x.Top > x[['Mid', 'Low]].max(axis=1))]                    .value_counts('index').reindex(df2.index, fill_value=0))  print(df2)

应用筛选条件：

使用 loc 函数和 lambda 表达式，基于以下条件筛选交叉合并后的 DataFrame：
- x.Start != x.Date：确保日期不相等。
- x.Bottom < x.High：df1 的 High 值大于 df2 的 Bottom 值。
- x.Top > x[[‘Mid’, ‘Low’]].max(axis=1)：df1 的 Mid 和 Low 的最大值小于 df2 的 Top 值。
统计匹配数量：

使用 value_counts(‘index’) 统计每个 df2 索引的匹配数量。然后，使用 reindex(df2.index, fill_value=0) 将结果重新索引到 df2 的索引，并将缺失值填充为 0。
将匹配数量添加到 df2：

将统计得到的匹配数量赋值给 df2 的 ‘Match’ 列。

结果

运行上述代码后，df2 将包含一个名为 ‘Match’ 的新列，其中存储了 df1 中满足条件的行数。

                Start      Top   Bottom  Match 0 2023-11-28 00:00:00  37341.4  37138.2      0 1 2023-11-24 12:00:00  38432.9  37894.4      3

注意事项

内存占用： 交叉合并可能会生成一个非常大的 DataFrame，因此需要确保有足够的内存来处理。如果 DataFrame 非常大，可以考虑分块处理。
日期格式： 确保 df1 和 df2 中的日期列具有相同的格式，以便进行比较。
性能优化：对于非常大的 DataFrame，可以考虑使用更高级的优化技术，例如使用 numpy 数组进行计算。

总结

通过使用 Pandas 的交叉合并功能，我们可以避免使用低效的循环，从而显著提高 DataFrame 值比对的速度。这种方法在处理大型数据集时尤其有效。然而，需要注意内存占用，并根据实际情况进行性能优化。

评论（已关闭）

评论已关闭

Hello! 欢迎来到悠悠畅享网！

Pandas DataFrame 值比对加速技巧：避免循环的有效方法

问题背景

解决方案：利用交叉合并避免循环

结果

注意事项

总结

评论（已关闭）