boxmoe_header_banner_img

Hello! 欢迎来到悠悠畅享网!

文章导读

Python怎么读取CSV文件_Python CSV文件读取方法详解


avatar
作者 2025年9月14日 9

python读取csv文件主要有两种方式:使用内置csv模块适合简单逐行处理,内存占用低;而pandas的read_csv()则将数据直接加载为DataFrame,便于数据分析。csv.reader按列表形式读取,适用于已知列顺序的场景;csv.DictReader以字典形式读取,通过列名访问更直观。pandas优势在于数据清洗、类型推断、缺失值处理及高性能操作,支持chunksize分块读取大型文件,usecols和dtype优化内存,同时可处理编码问题(如utf-8、gbk)和自定义分隔符,适应非标准格式。

Python怎么读取CSV文件_Python CSV文件读取方法详解

Python读取CSV文件主要有两种主流且高效的方式:一是利用Python内置的

csv

模块,它提供了基础且灵活的CSV文件处理能力,适合逐行或按字典格式读取;二是借助强大的第三方库

pandas

,特别是其

read_csv()

函数,它能将CSV数据直接加载为DataFrame,极大简化了数据清洗、分析和操作的流程,对于数据科学和大数据处理场景几乎是标配。选择哪种方法,往往取决于你的具体需求和对数据处理复杂度的预期。

解决方案

在Python中处理CSV文件,我们通常会根据需求选择不同的工具。如果只是简单地遍历数据,或者对内存占用有严格要求,内置的

csv

模块是个不错的选择。而如果需要进行复杂的数据分析、清洗或与数据库交互,

pandas

库无疑是更高效、功能更强大的方案。

使用Python内置的

csv

模块

csv

模块提供了两种主要的读取方式:

csv.reader

csv.DictReader

立即学习Python免费学习笔记(深入)”;

  1. csv.reader

    :按行和字段读取 这种方式会将CSV文件的每一行视为一个列表,列表中的每个元素对应一个字段。这很直接,适合那些你已经知道列顺序,或者只是想快速迭代所有数据的场景。

    import csv  file_path = 'data.csv' # 假设有一个名为data.csv的文件  try:     with open(file_path, mode='r', encoding='utf-8') as file:         reader = csv.reader(file)         header = next(reader) # 通常第一行是标题         print(f"文件头部: {header}")         for row in reader:             print(row)             # 假设我们想处理每一行的数据,比如计算某个字段的和             # if len(row) > 1 and row[1].isdigit(): # 简单检查,避免索引错误和非数字数据             #     print(f"第二个字段的值: {row[1]}") except FileNotFoundError:     print(f"错误:文件 '{file_path}' 未找到。") except Exception as e:     print(f"读取文件时发生错误: {e}")

    这里需要注意

    encoding

    参数,它在处理不同编码的CSV文件时至关重要,特别是windows系统下常见的

    gbk

    cp936

    。如果文件不存在,或者编码不对,程序会报错,所以加上

    try-except

    块是好习惯。

  2. csv.DictReader

    :按字典格式读取

    DictReader

    会把CSV文件的第一行(通常是标题行)作为字典的键,后续每一行数据则作为字典的值。这种方式非常方便,因为它允许你通过列名直接访问数据,而不用关心列的索引,大大提高了代码的可读性和健壮性。

    import csv  file_path = 'data.csv'  try:     with open(file_path, mode='r', encoding='utf-8') as file:         reader = csv.DictReader(file)         for row in reader:             print(row)             # 你可以直接通过列名访问数据,比如             # if '姓名' in row:             #     print(f"姓名: {row['姓名']}")             # if '年龄' in row and row['年龄'].isdigit():             #     print(f"年龄: {row['年龄']}") except FileNotFoundError:     print(f"错误:文件 '{file_path}' 未找到。") except Exception as e:     print(f"读取文件时发生错误: {e}")

    在我看来,

    DictReader

    在很多情况下比

    reader

    更实用,特别是当CSV文件的列顺序可能变化,或者列名比索引更有意义时。

使用

pandas

库读取CSV文件

pandas

是Python数据科学领域的核心库,它提供了一个高性能、易于使用的数据结构DataFrame,非常适合处理表格数据。读取CSV文件到DataFrame是它的基本功能之一。

import pandas as pd  file_path = 'data.csv'  try:     df = pd.read_csv(file_path, encoding='utf-8')     print("成功读取CSV文件,前5行数据如下:")     print(df.head())     print("n数据框信息:")     df.info()     # 还可以直接访问列     # print(df['姓名']) except FileNotFoundError:     print(f"错误:文件 '{file_path}' 未找到。") except pd.errors.EmptyDataError:     print(f"错误:文件 '{file_path}' 是空的或不包含数据。") except Exception as e:     print(f"读取文件时发生错误: {e}")
pd.read_csv()

函数功能非常强大,参数众多,可以处理各种复杂的CSV文件格式,比如指定分隔符、跳过行、处理缺失值、指定数据类型等等。这使得它在处理真实世界中那些“不那么标准”的CSV文件时,显得游刃有余。

Python内置的

csv

模块有哪些常用方法,分别适用于什么场景?

Python内置的

csv

模块主要提供了

csv.reader

csv.DictReader

这两个核心类来读取CSV文件,它们各有侧重,适用于不同的场景。

1.

csv.reader

:基础的行迭代器

  • 工作原理:
    csv.reader

    对象是一个迭代器,每次迭代返回CSV文件中的一行数据,以列表(list)的形式呈现。列表中的每个元素对应CSV文件中的一个字段。

  • 常用参数:
    • delimiter

      :指定字段之间的分隔符,默认为逗号

      ,

      。如果你的CSV文件使用分号

      ;

      或制表符

      t

      分隔,就需要明确指定。

    • quotechar

      :指定引用字符,默认为双引号

      "

      。当字段内容包含分隔符时,通常会用引用字符包围。

    • skipinitialspace

      :如果为

      True

      ,在分隔符后会忽略空格。

  • 适用场景:
    • 快速遍历所有数据: 当你不需要通过列名访问数据,只想简单地逐行处理,比如统计行数、简单的数据清洗或转换。
    • 内存敏感型应用: 由于它一次只读取一行数据,对于非常大的CSV文件,
      csv.reader

      比一次性加载所有数据到内存(如

      pandas

      )更节省内存。

    • 自定义解析逻辑: 当CSV文件的结构非常规,需要你手动解析每个字段时,
      csv.reader

      提供了最原始的数据访问方式。

    • 处理没有标题行的CSV: 如果CSV文件没有明确的标题行,
      csv.reader

      就显得很自然,因为你本来就需要通过索引来访问数据。

示例(处理非标准分隔符):

import csv  # 假设文件data_semicolon.csv内容是: # Name;Age;City # Alice;30;New York # Bob;24;London  file_path = 'data_semicolon.csv' try:     with open(file_path, mode='r', encoding='utf-8') as file:         reader = csv.reader(file, delimiter=';') # 指定分号作为分隔符         header = next(reader)         print(f"头部(分号分隔): {header}")         for row in reader:             print(f"数据行: {row}") except FileNotFoundError:     print(f"文件 '{file_path}' 未找到。") except Exception as e:     print(f"读取文件时发生错误: {e}")

2.

csv.DictReader

:字典形式的行迭代器

  • 工作原理:
    csv.DictReader

    也返回一个迭代器,但每次迭代返回的是一个字典(dict)。这个字典的键(keys)默认取自CSV文件的第一行(通常是标题行),值(values)则是当前行对应字段的数据。

  • 常用参数:
    • fieldnames

      :如果你想手动指定字段名,而不是使用CSV文件的第一行作为标题,可以传入一个列表。

    • 其他参数如
      delimiter

      quotechar

      等与

      csv.reader

      相同。

  • 适用场景:
    • 通过列名访问数据: 这是
      DictReader

      最大的优势。当CSV文件的列顺序可能变化,或者列的含义比其索引更重要时,通过列名访问数据能让代码更清晰、更不容易出错。

    • 数据清洗和转换: 当你需要根据特定列的值进行条件判断、计算或修改时,
      DictReader

      的字典访问方式非常直观。

    • 与数据库或API交互: 如果你的数据最终要导入数据库或通过API发送,而这些系统通常都使用字段名来标识数据,那么
      DictReader

      能更好地匹配这种需求。

    • 处理有明确标题行的CSV: 对于大多数结构化的CSV文件,第一行就是标题,
      DictReader

      能自动识别并利用这些标题。

示例(指定

fieldnames

):

import csv  # 假设文件data_no_header.csv内容是: # Alice,30,New York # Bob,24,London  file_path = 'data_no_header.csv' # 如果文件没有头部,但我们知道列的含义 column_names = ['姓名', '年龄', '城市'] try:     with open(file_path, mode='r', encoding='utf-8') as file:         reader = csv.DictReader(file, fieldnames=column_names)         # 如果有实际的头部行,但我们想跳过它并使用自定义的fieldnames         # next(reader) # 如果文件有头部但我们不想用,就跳过它         for row in reader:             print(f"姓名: {row['姓名']}, 年龄: {row['年龄']}, 城市: {row['城市']}") except FileNotFoundError:     print(f"文件 '{file_path}' 未找到。") except Exception as e:     print(f"读取文件时发生错误: {e}")

总的来说,

csv

模块提供了对CSV文件进行精细控制的能力,尤其在资源受限或需要自定义解析逻辑的场景下表现出色。但在面对大量数据分析任务时,它往往需要更多的手动编码来完成数据类型转换、缺失值处理等,这时

pandas

的优势就凸显出来了。

Python怎么读取CSV文件_Python CSV文件读取方法详解

DeepSeek

幻方量化公司旗下的开源大模型平台

Python怎么读取CSV文件_Python CSV文件读取方法详解7087

查看详情 Python怎么读取CSV文件_Python CSV文件读取方法详解

使用

pandas

库读取CSV文件相比

csv

模块有哪些显著优势?如何处理大型CSV文件?

pandas

库在数据处理领域几乎是无处不在,尤其在读取CSV文件方面,它相比Python内置的

csv

模块,提供了压倒性的优势,特别是在处理大型文件和进行复杂数据分析时。

pandas

库读取CSV文件的显著优势:

  1. 数据结构化和可视化:
    • DataFrame:
      pandas

      将CSV数据直接加载到一个名为DataFrame的二维表格结构中。DataFrame类似于电子表格或sql表,具有行和列标签,非常直观。这使得数据查看、切片、筛选和聚合操作变得异常简单。而

      csv

      模块每次只处理一行,你需要自己构建数据结构。

    • 数据概览:
      df.head()

      ,

      df.info()

      ,

      df.describe()

      等函数能让你迅速了解数据的结构、类型、缺失值和统计摘要,这在数据探索阶段是极其宝贵的。

  2. 强大的数据清洗和预处理功能:
    • 缺失值处理:
      pd.read_csv()

      可以直接在读取时处理缺失值(

      na_values

      参数),读取后DataFrame也提供了

      dropna()

      ,

      fillna()

      等方法,处理缺失值非常方便。

      csv

      模块需要手动判断和处理。

    • 数据类型推断与转换:
      pandas

      能智能地推断列的数据类型(整数、浮点数、字符串、日期等),并提供强大的类型转换功能(

      astype()

      )。

      csv

      模块读取的所有数据都是字符串,需要手动转换。

    • 日期时间解析:
      parse_dates

      参数能自动将指定列解析为日期时间对象,方便后续的时间序列分析。

      csv

      模块需要手动使用

      datetime

      模块进行解析。

    • 重复值处理:
      drop_duplicates()

      能轻松识别和删除重复行。

  3. 高性能:
    • pandas

      底层是基于numpyc语言实现的,对于大规模数据操作,其性能通常远超纯Python循环处理。读取大型CSV文件时,

      pd.read_csv()

      通常比

      csv

      模块快得多。

  4. 丰富的数据操作和分析API:
    • 数据筛选与查询: 基于条件、列名或索引进行数据筛选非常灵活。
    • 分组与聚合:
      groupby()

      配合聚合函数(

      sum()

      ,

      mean()

      ,

      count()

      等)可以轻松实现复杂的数据汇总。

    • 合并与连接:
      merge()

      ,

      join()

      ,

      concat()

      等函数可以方便地将多个DataFrame组合起来。

    • 统计分析: 内置了大量的统计函数和方法。
  5. 易用性和代码简洁性:
    • 许多在
      csv

      模块中需要多行代码才能完成的操作,在

      pandas

      中可能只需要一行。这大大提高了开发效率和代码的可读性。

如何处理大型CSV文件?

当CSV文件大到无法一次性完全加载到内存时,

pandas

也提供了一些非常有效的策略:

  1. chunksize

    参数:分块读取 这是处理大型CSV文件最常用的方法。

    chunksize

    参数让

    read_csv()

    返回一个迭代器,每次迭代返回一个指定大小的DataFrame块。这样,你就可以逐块处理数据,而无需将整个文件加载到内存。

    import pandas as pd  file_path = 'large_data.csv' # 假设这是一个非常大的CSV文件 chunk_size = 100000 # 每次读取10万行  total_rows_processed = 0 # 假设我们想计算某个列的总和 total_value_sum = 0  try:     for chunk in pd.read_csv(file_path, chunksize=chunk_size, encoding='utf-8'):         total_rows_processed += len(chunk)         # 在这里对每个chunk进行处理,例如:         if '数值列' in chunk.columns:             total_value_sum += chunk['数值列'].sum()         print(f"已处理 {total_rows_processed} 行数据...")      print(f"所有数据处理完毕。总行数: {total_rows_processed}, 数值列总和: {total_value_sum}")  except FileNotFoundError:     print(f"错误:文件 '{file_path}' 未找到。") except Exception as e:     print(f"处理大型文件时发生错误: {e}")

    这种方式的缺点是,如果你需要全局性的操作(比如排序整个文件),分块处理会比较复杂。

  2. nrows

    参数:读取指定行数 如果你只需要文件的前N行进行测试或预览,

    nrows

    参数非常有用。

    import pandas as pd df_preview = pd.read_csv('large_data.csv', nrows=1000, encoding='utf-8') print(f"已读取前1000行数据,数据框形状: {df_preview.shape}")
  3. usecols

    参数:只读取需要的列 如果CSV文件有很多列,但你只需要其中的几列,使用

    usecols

    参数可以显著减少内存占用。

    import pandas as pd df_selected = pd.read_csv('large_data.csv', usecols=['ID', '姓名', '年龄'], encoding='utf-8') print(f"只读取了指定列,数据框形状: {df_selected.shape}")
  4. dtype

    参数:指定数据类型

    pandas

    在读取时会尝试推断每列的最佳数据类型,但这有时会导致使用比实际需要更大的内存(例如,将整数列推断为浮点数)。通过

    dtype

    参数明确指定每列的数据类型,可以有效优化内存使用。

    import pandas as pd df_optimized = pd.read_csv('large_data.csv', dtype={'ID': 'int32', '年龄': 'int16', '姓名': 'string'}, encoding='utf-8') df_optimized.info(memory_usage='deep') # 查看内存使用情况

    尤其是对于整数和字符串列,使用更小的整数类型(如

    int8

    ,

    int16

    ,

    int32

    )或

    'category'

    类型(对于重复值较多的字符串)可以大幅节省内存。

  5. skiprows

    参数:跳过不需要的行 如果文件开头有元数据或无效行,可以使用

    skiprows

    跳过它们。

    结合这些策略,

    pandas

    在处理从小型到超大型的CSV文件时,都展现出了无与伦比的灵活性和效率。

读取CSV文件时,常见的编码问题和分隔符不一致如何解决?

在实际工作中,CSV文件往往不是那么“标准”,经常会遇到编码错误和分隔符不一致的问题。这些问题如果不妥善处理,会导致数据乱码、解析失败,甚至程序崩溃。

1. 编码问题(

UnicodeDecodeError

这是最常见也最令人头疼的问题之一。当程序尝试以错误的编码方式解码文件时,就会抛出

UnicodeDecodeError

  • 问题表现:

    • UnicodeDecodeError: 'utf-8' codec can't decode byte 0x... in position ...: invalid start byte
    • 读取到的中文或其他非ASCII字符显示为乱码(如
      ���

      或问号)。

  • 解决方案:

    1. 明确指定编码: 最直接有效的方法就是在打开文件时,通过

      encoding

      参数明确指定正确的编码。

      • 对于
        csv

        模块:

        import csv try:     # 尝试 'utf-8'     with open('data.csv', mode='r', encoding='utf-8') as f:         reader = csv.reader(f)         # ... 处理数据 except UnicodeDecodeError:     print("尝试UTF-8失败,尝试GBK...")     try:         # 尝试 'gbk' 或 'cp936' (windows中文环境常用)         with open('data.csv', mode='r', encoding='gbk') as f:             reader = csv.reader(f)             # ... 处理数据     except UnicodeDecodeError:         print("尝试GBK也失败,尝试Latin-1...")         # 尝试 'latin-1' (有时用于包含各种非ASCII字符的文件)         with open('data.csv', mode='r', encoding='latin-1') as f:             reader = csv.reader(f)             # ... 处理数据 except FileNotFoundError:     print("文件未找到。")
      • 对于
        pandas

        import pandas as pd try:     df = pd.read_csv('data.csv', encoding='utf-8') except UnicodeDecodeError:     print("尝试UTF-8失败,尝试GBK...")     try:         df = pd.read_csv('data.csv', encoding='gbk')     except UnicodeDecodeError:         print("尝试GBK也失败,尝试Latin-1...")         df = pd.read_csv('data.csv', encoding='latin-1') except FileNotFoundError:     print("文件未找到。")
    2. 猜测文件编码: 如果你不知道文件的确切编码,可以使用第三方库如

      chardet

      来猜测。这虽然不是100%准确,但在很多情况下能提供很好的线索。

       # 首先安装:pip install chardet import chardet  def detect_encoding(file_path):     with open(file_path, 'rb') as f: # 以二进制模式读取         raw_data = f.read(100000) # 读取文件的前100KB进行检测     result = chardet.detect(raw_data)     return result['encoding']  file_



评论(已关闭)

评论已关闭