本文旨在解决在使用 Pandas 处理包含分钟:秒格式时间数据时,遇到的 dateutil.parser._parser.ParserError: hour must be in 0..23 错误。文章将分析错误原因,并提供可行的解决方案,将时间数据转换为合适的 Pandas 时间序列格式。
问题分析
当 Pandas 尝试将字符串转换为日期时间对象时,如果字符串的格式与日期时间格式不匹配,则会引发 dateutil.parser._parser.ParserError 错误。 在本例中,错误信息 hour must be in 0..23 表明 Pandas 尝试将 time 列中的值解析为包含小时的完整时间戳,但列中的数据实际上是分钟:秒的格式,其中某些值(如 ’59:23.4’)的小时部分大于 23,导致解析失败。
解决方案
解决此问题的关键在于正确理解 time 列中数据的含义,并将其转换为合适的数据类型。 如果 time 列表示的是从某一时刻开始经过的时间(即持续时间),而不是一天中的特定时间点,则应该将其转换为 timedelta 对象。
以下是一种可行的解决方案:
import pandas as pd # 从 Google Drive 读取数据 url = 'https://drive.google.com/uc?id=12R6nMvN81GJHSBEElP8NiXXkwtuv04wf' # 替换为你的文件 ID df = pd.read_csv(url) # 定义一个函数,将 "MM:SS.f" 格式的字符串转换为 timedelta 对象 def convert_to_timedelta(time_str): try: minutes, seconds = map(float, time_str.split(':')) return pd.to_timedelta(minutes=minutes, seconds=seconds) except: return pd.NaT # 处理无法解析的值 # 将 "time" 列应用转换函数 df['time'] = df['time'].astype(str).apply(convert_to_timedelta) # 打印转换后的数据类型和前几行数据 print(df['time'].dtype) print(df['time'].head())
代码解释:
- 读取数据: 使用 pd.read_csv 从指定的 URL 读取 CSV 文件到 Pandas DataFrame 中。
- 定义转换函数: convert_to_timedelta 函数接收一个字符串参数(时间),将其分割为分钟和秒,并使用 pd.to_timedelta 函数将其转换为 timedelta 对象。 如果字符串无法解析,则返回 pd.NaT (Not a Time)。
- 应用转换函数: 使用 df[‘time’].apply(convert_to_timedelta) 将 convert_to_timedelta 函数应用到 DataFrame 的 time 列中的每个元素。 astype(str) 确保输入为字符串,避免潜在的类型错误。
- 检查结果: 打印 time 列的数据类型,确认其已成功转换为 timedelta64[ns]。 打印前几行数据,以验证转换的正确性。
注意事项
-
数据清洗: 在转换之前,应确保 time 列中的数据格式一致,并处理缺失值或无效值。 例如,可以使用 df[‘time’] = df[‘time’].str.strip() 去除字符串前后的空格。
-
错误处理: 在 convert_to_timedelta 函数中包含了 try…except 块,用于处理无法解析的时间字符串。 根据实际情况,可以修改此部分的代码,例如将无法解析的值替换为 0 或其他合适的值。
-
时区问题: 如果需要处理包含时区信息的时间数据,需要使用 tz_localize 和 tz_convert 方法进行时区转换。
-
格式化输出: 如果需要将 timedelta 对象格式化为特定的字符串,可以使用 strftime 方法。例如:
print(df['time'].apply(lambda x: str(x)))
总结
解决 Pandas 中 dateutil.parser._parser.ParserError: hour must be in 0..23 错误的关键在于理解数据的实际含义,并选择合适的数据类型进行转换。 如果 time 列表示的是持续时间,则应将其转换为 timedelta 对象。 通过编写自定义的转换函数,可以灵活地处理各种时间格式,并将数据转换为 Pandas 可以处理的时间序列数据。
评论(已关闭)
评论已关闭