pandas读写csv文件,python pandas读取csv数据

　　本文主要介绍Pythonpandas数据读写IO工具CSV使用实例的详细说明。有需要的朋友可以借鉴一下，希望能有所帮助。祝大家进步很大，早日升职加薪。

　　00-1010前言CSV和文本文件1参数解析1.1基础1.2列、索引、名称1.3通用解析配置1.4 NA和缺失数据处理1.5日期时间处理1.6迭代1.7引用、压缩和文件格式1.8错误处理2。指定数据列的类型

前言

　　读取文本文件的主要函数是read_csv()

CSV 和文本文件

　　Read_csv()接受以下公共参数3360

1 参数解析

　　Path _ or _ buffer:变量

　　可以是文件路径、文件URL或任何具有read()函数的对象

　　Sep: str，默认值，yes for read_table t

　　文件分隔符，如果设置为None，C引擎无法自动检测分隔符，而Python引擎可以通过内置的嗅探器工具自动检测分隔符。此外，如果设置的字符长度大于1且不是 s ，字符串将被解析成正则表达式，Python解析引擎将被强制使用。比如 \r\t ，但是正则表达式往往会忽略文本中的引用数据。分隔符：字符串，默认为无

　　sep的可选参数，功能相同

1.1 基础

　　Header: int或list，默认为 infer

　　用作列名的行号，默认行为是推断列名：

　　如果未指定names参数，其行为类似于header=0，即从读取的第一行推断。如果设置了names，则行为与header=None相同。您还可以为标题设置一个列表来表示多级列名。如果[0，1，3]，未指定的行(此处为2)将被跳过。如果skip_blank_lines=True，将跳过空行和注释行。因此，header=0不表示文件的第一行，names:类似数组，默认值为None。

　　如果文件不包含标题行，则所需列名的列表应显式传递header=None，并且该列表中不允许出现重复值。

　　Index _ col:int，str，int/str的序列，false，默认值为None

　　用作数据帧索引的列可以以字符串名称或列索引的形式给出。如果指定了列表，则使用MultiIndex。注意：index_col=Fa

　　lse 可用于强制 pandas 不要将第一列用作索引。例如，当您的文件是每行末尾都带有一个分隔符的错误文件时。

usecols: 列表或函数, 默认为 None

　　

只读取指定的列。如果是列表，则所有元素都必须是位置（即文件列中的整数索引）或字符串，这些字符串必须与 names 参数提供的或从文档标题行推断出的列名相对应。
列表中的顺序会被忽略，即 usecols=[0, 1] 等价于 [1, 0]
如果是可调用函数，将会根据列名计算，返回可调用函数计算为 True 的名称

In [1]: import pandas as pd

　　使用此参数可以大大加快解析时间并降低内存使用

squeeze: boolean, 默认为 False

　　

如果解析的数据只包含一列，那么返回一个 Series

prefix: str, 默认为 None

　　

当没有标题时，添加到自动生成的列号的前缀，例如 'X' 表示 X0, X1...

mangle_dupe_cols: boolean, 默认为 True

　　

重复的列将被指定为 'X','X.1'…'X.N'，而不是 'X'... 。如果在列中有重复的名称，传递 False 将导致数据被覆盖

1.3 常规解析配置

dtype: 类型名或类型字典（column -> type）, 默认为 None

　　

　　数据或列的数据类型。例如。

{'a'：np.float64，'b'：np.int32}

　　engine: {'c', 'python'}
　　

要使用的解析器引擎。C 引擎更快，而 Python 引擎目前功能更完整

converters: dict, 默认为 None

　　

用于在某些列中对值进行转换的函数字典。键可以是整数，也可以是列名

true_values: list, 默认为 None

　　

数据值解析为 True

false_values: list, 默认为 None

　　

数据值解析为 False

skipinitialspace: boolean, 默认为 False

　　

跳过分隔符之后的空格

skiprows: 整数或整数列表, 默认为 None

　　

在文件开头要跳过的行号（索引为 0）或要跳过的行数
如果可调用函数，则对索引应用函数，如果返回 True，则应跳过该行，否则返回 False

In [6]: data = "col1,col2,col3na,b,1na,b,2nc,d,3"

skipfooter: int, 默认为 0

　　

需要跳过文件末尾的行数（不支持 C 引擎）

nrows: int, 默认为 None

　　

要读取的文件行数，对于读取大文件很有用

memory_map: boolean, 默认为 False

　　

如果为 filepath_or_buffer 参数指定了文件路径，则将文件对象直接映射到内存中，然后直接从那里访问数据。使用此选项可以提高性能，因为不再有任何 I/O 开销

1.4 NA 和缺失数据处理

na_values: scalar, str, list-like, dict, 默认为 None

　　

需要转换为 NA 值的字符串

keep_default_na: boolean, 默认为 True

　　

　　解析数据时是否包含默认的 NaN 值。根据是否传入 na_values，其行为如下

keep_default_na=True, 且指定了 na_values, na_values 将会与默认的 NaN 一起被解析

　　keep_default_na=True, 且未指定 na_values, 只解析默认的 NaN
　　keep_default_na=False, 且指定了 na_values, 只解析 na_values 指定的 NaN
　　keep_default_na=False, 且未指定 na_values, 字符串不会被解析为 NaN
　　

　　注意：如果 na_filter=False，那么 keep_default_na 和 na_values 参数将被忽略

na_filter: boolean, 默认为 True

　　

检测缺失值标记（空字符串和 na_values 的值）。在没有任何 NA 的数据中，设置 na_filter=False 可以提高读取大文件的性能

skip_blank_lines: boolean, 默认为 True

　　

如果为 True，则跳过空行，而不是解释为 NaN 值

1.5 日期时间处理

　　parse_dates: 布尔值、列表或嵌套列表、字典, 默认为 False.

如果为 True -> 尝试解析索引
如果为 [1, 2, 3] -> 尝试将 1, 2, 3 列解析为分隔的日期
如果为 [[1, 3]] -> 将 1, 3 列解析为单个日期列
如果为 {'foo': [1, 3]} -> 将 1, 3 列作为日期并设置列名为 foo

infer_datetime_format: 布尔值, 默认为 False

　　

如果设置为 True 且设置了 parse_dates，则尝试推断 datetime 格式以加快处理速度

date_parser: 函数, 默认为 None

　　

　　用于将字符串序列转换为日期时间实例数组的函数。默认使用 dateutil.parser.parser 进行转换，pandas 将尝试以三种不同的方式调用 date_parser

传递一个或多个数组（parse_dates 定义的列）作为参数;
将 parse_dates 定义的列中的字符串值连接到单个数组中，并将其传递;
使用一个或多个字符串(对应于 parse_dates 定义的列)作为参数，对每一行调用 date_parser 一次。

dayfirst: 布尔值, 默认为 False

　　

DD/MM 格式的日期

　　cache_dates: 布尔值, 默认为 True

如果为 True，则使用唯一的、经过转换的日期缓存来应用 datetime 转换。
在解析重复的日期字符串，特别是带有时区偏移量的日期字符串时，可能会显著提高速度。

1.6 迭代

iterator: boolean, 默认为 False

　　

返回 TextFileReader 对象以进行迭代或使用 get_chunk() 来获取块

1.7 引用、压缩和文件格式

compression: {'infer', 'gzip', 'bz2', 'zip', 'xz', None, dict}, 默认为 'infer'

　　

用于对磁盘数据进行即时解压缩。如果为 "infer"，则如果 filepath_or_buffer 是文件路径且以 ".gz"，".bz2"，".zip" 或 ".xz" 结尾，则分别使用 gzip，bz2，zip 或 xz 解压，否则不进行解压缩。
如果使用 "zip"，则 ZIP 文件必须仅包含一个要读取的数据文件。设置为 None 表示不解压
也可以使用字典的方式，键为 method 的值从 {'zip', 'gzip', 'bz2'} 中选择。例如

compression={method: gzip, compresslevel: 1, mtime: 1}

　　thousandsstr, 默认为 None

数值在千位的分隔符

decimal: str, 默认为 '.'

　　

小数点

float_precision: string, 默认为 None

　　

指定 C 引擎应该使用哪个转换器来处理浮点值。普通转换器的选项为 None，高精度转换器的选项为 high，双向转换器的选项为 round_trip。

　　quotechar: str (长度为 1)

用于表示被引用数据的开始和结束的字符。带引号的数据里的分隔符将被忽略

　　comment: str, 默认为 None

用于跳过该字符开头的行，例如，如果 comment='#'，将会跳过 # 开头的行

　　encoding: str, 默认为 None

　　设置编码格式

1.8 错误处理

error_bad_linesboolean, 默认为 True

　　

默认情况下，字段太多的行（例如，带有太多逗号的 csv 文件）会引发异常，并且不会返回任何 DataFrame。
如果设置为 False，则这些坏行将会被删除

warn_bad_linesboolean, 默认为 True

　　

　　如果 error_bad_lines=False 且 warn_bad_lines=True，每个坏行都会输出一个警告

2. 指定数据列的类型

　　您可以指示整个 DataFrame 或各列的数据类型

In [9]: import numpy as np

　　你可以使用 read_csv() 的 converters 参数，统一某列的数据类型

In [17]: data = "col_1n1n2nAn4.22"

　　或者，您可以在读取数据后使用 to_numeric() 函数强制转换类型

In [21]: df2 = pd.read_csv(StringIO(data))

　　它将所有有效的数值转换为浮点数，而将无效的解析为 NaN

　　最后，如何处理包含混合类型的列取决于你的具体需要。在上面的例子中，如果您只想要将异常的数据转换为 NaN，那么 to_numeric() 可能是您的最佳选择。

　　然而，如果您想要强制转换所有数据，而无论类型如何，那么使用 read_csv() 的 converters 参数会更好

　　注意

　　在某些情况下，读取包含混合类型列的异常数据将导致数据集不一致。

　　如果您依赖 pandas 来推断列的类型，解析引擎将继续推断数据块的类型，而不是一次推断整个数据集。

In [25]: col_1 = list(range(500000)) + ["a", "b"] + list(range(500000))

　　这就导致 mixed_df 对于列的某些块包含 int 类型，而对于其他块则包含 str，这是由于读取的数据是混合类型。

　　以上就是Python pandas数据读写操作IO工具CSV的详细内容，更多关于Python pandas数据读写的资料请关注盛行IT软件开发工作室其它相关文章！

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。