boxmoe_header_banner_img

Hello! 欢迎来到悠悠畅享网!

文章导读

解决 Pandas 中时间解析错误:hour must be in 0..23


avatar
站长 2025年8月8日 6

解决 Pandas 中时间解析错误:hour must be in 0..23

本文旨在解决在使用 Pandas 处理包含分钟:秒格式时间数据时,遇到的 dateutil.parser._parser.ParserError: hour must be in 0..23 错误。文章将分析错误原因,并提供可行的解决方案,将时间数据转换为合适的 Pandas 时间序列格式。

问题分析

当 Pandas 尝试将字符串转换为日期时间对象时,如果字符串的格式与日期时间格式不匹配,则会引发 dateutil.parser._parser.ParserError 错误。 在本例中,错误信息 hour must be in 0..23 表明 Pandas 尝试将 time 列中的值解析为包含小时的完整时间戳,但列中的数据实际上是分钟:秒的格式,其中某些值(如 ’59:23.4’)的小时部分大于 23,导致解析失败。

解决方案

解决此问题的关键在于正确理解 time 列中数据的含义,并将其转换为合适的数据类型。 如果 time 列表示的是从某一时刻开始经过的时间(即持续时间),而不是一天中的特定时间点,则应该将其转换为 timedelta 对象。

以下是一种可行的解决方案:

import pandas as pd  # 从 Google Drive 读取数据 url = 'https://drive.google.com/uc?id=12R6nMvN81GJHSBEElP8NiXXkwtuv04wf'  # 替换为你的文件 ID df = pd.read_csv(url)  # 定义一个函数,将 "MM:SS.f" 格式的字符串转换为 timedelta 对象 def convert_to_timedelta(time_str):     try:         minutes, seconds = map(float, time_str.split(':'))         return pd.to_timedelta(minutes=minutes, seconds=seconds)     except:         return pd.NaT  # 处理无法解析的值  # 将 "time" 列应用转换函数 df['time'] = df['time'].astype(str).apply(convert_to_timedelta)  # 打印转换后的数据类型和前几行数据 print(df['time'].dtype) print(df['time'].head())

代码解释:

  1. 读取数据: 使用 pd.read_csv 从指定的 URL 读取 CSV 文件到 Pandas DataFrame 中。
  2. 定义转换函数: convert_to_timedelta 函数接收一个字符串参数(时间),将其分割为分钟和秒,并使用 pd.to_timedelta 函数将其转换为 timedelta 对象。 如果字符串无法解析,则返回 pd.NaT (Not a Time)。
  3. 应用转换函数: 使用 df[‘time’].apply(convert_to_timedelta) 将 convert_to_timedelta 函数应用到 DataFrame 的 time 列中的每个元素。 astype(str) 确保输入为字符串,避免潜在的类型错误。
  4. 检查结果: 打印 time 列的数据类型,确认其已成功转换为 timedelta64[ns]。 打印前几行数据,以验证转换的正确性。

注意事项

  • 数据清洗: 在转换之前,应确保 time 列中的数据格式一致,并处理缺失值或无效值。 例如,可以使用 df[‘time’] = df[‘time’].str.strip() 去除字符串前后的空格。

  • 错误处理: 在 convert_to_timedelta 函数中包含了 try…except 块,用于处理无法解析的时间字符串。 根据实际情况,可以修改此部分的代码,例如将无法解析的值替换为 0 或其他合适的值。

  • 时区问题: 如果需要处理包含时区信息的时间数据,需要使用 tz_localize 和 tz_convert 方法进行时区转换。

  • 格式化输出 如果需要将 timedelta 对象格式化为特定的字符串,可以使用 strftime 方法。例如:

    print(df['time'].apply(lambda x: str(x)))

总结

解决 Pandas 中 dateutil.parser._parser.ParserError: hour must be in 0..23 错误的关键在于理解数据的实际含义,并选择合适的数据类型进行转换。 如果 time 列表示的是持续时间,则应将其转换为 timedelta 对象。 通过编写自定义的转换函数,可以灵活地处理各种时间格式,并将数据转换为 Pandas 可以处理的时间序列数据。



评论(已关闭)

评论已关闭