python读文件的方法,python对文件的读操作方法有哪些

　　00-1010

I/O操作概述

　　文件读写的实现原理和操作步骤

　　打开文件模式

　　Python文件操作步骤示例

　　Python文件读取相关方法

　　文件读写和字符编码

　　00-1010I/O指计算机中的输入/输出，即Stream的输入输出。这里的输入和输出是相对于内存的。输入流是指从外部(磁盘、网络)流入内存的数据，输出流是指从内存流出到外部(磁盘、网络)的数据。当程序运行时，数据驻留在内存中，并由CPU执行，CPU是一个超快速的计算核心。在涉及数据交换的地方(通常是磁盘和网络操作)，需要IO接口。

　　那么这个IO接口是由谁提供呢？高级编程语言中的IO操作是如何实现的呢？

　　操作系统是一个通用的软件程序，其通用目的如下：

　　硬件驱动程序

　　进程管理

　　内存管理

　　网络管理

　　安全管理

　　输入输出管理

　　; white-space: normal; background-color: rgb(255, 255, 255);">操作系统屏蔽了底层硬件，向上提供通用接口。因此，操作I/O的能力是由操作系统的提供的，每一种编程语言都会把操作系统提供的低级C接口封装起来供开发者使用，Python也不例外。

二、文件读写实现原理与操作步骤

1. 文件读写实现原理

文件读写就是一种常见的IO操作。那么根据上面的描述，可以推断python也应该封装操作系统的底层接口，直接提供了文件读写相关的操作方法。事实上，也确实如此，而且Java、PHP等其他语言也是。

那么我们要操作的对象是什么呢？我们又如何获取要操作的对象呢？

由于操作I/O的能力是由操作系统提供的，且现代操作系统不允许普通程序直接操作磁盘，所以读写文件时需要请求操作系统打开一个对象（通常被称为文件描述符--file descriptor, 简称fd），这就是我们在程序中要操作的文件对象。

通常高级编程语言中会提供一个内置的函数，通过接收"文件路径"以及“文件打开模式”等参数来打开一个文件对象，并返回该文件对象的文件描述符。因此通过这个函数我们就可以获取要操作的文件对象了。这个内置函数在Python中叫open(), 在PHP中叫fopen(),

2. 文件读写操作步骤

不同的编程语言读写文件的操作步骤大体都是一样的，都分为以下几个步骤：

1）打开文件，获取文件描述符2）操作文件描述符--读/写3）关闭文件

只是不同的编程语言提供的读写文件的api是不一样的，有些提供的功能比较丰富，有些比较简陋。

需要注意的是：文件读写操作完成后，应该及时关闭。一方面，文件对象会占用操作系统的资源；另外一方面，操作系统对同一时间能打开的文件描述符的数量是有限制的，在Linux操作系统上可以通过ulimit -n 来查看这个显示数量。如果不及时关闭文件，还可能会造成数据丢失。因为我将数据写入文件时，操作系统不会立刻把数据写入磁盘，而是先把数据放到内存缓冲区异步写入磁盘。当调用close方法时，操作系统会保证把没有写入磁盘的数据全部写到磁盘上，否则可能会丢失数据。

三、文件打开模式

我们先来看下在Python、PHP和C语言中打开文件的函数定义

Python

# Python2open(name[, mode[, buffering]])# Python3open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)

PHP

resource fopen ( string $filename , string $mode [, bool $use_include_path = false [, resource $context ]] )

C语言

int open(const char * pathname, int flags);

会发现以上3种编程语言内置的打开文件的方法接收的参数中，除了都包含一个“文件路径名称”，还会包含一个mode参数（C语言的open函数中的flags参数作用相似）。这么mode参数定义的是打开文件时的模式，常见的文件打开模式有：只读、只写、可读可写、只追加。不同的编程语言中对文件打开模式的定义有些微小的差别，我们来看下Python中的文件打开模式有哪些。

　　文件打开模式描述r以只读模式打开文件，并将文件指针指向文件头；如果文件不存在会报错w以只写模式打开文件，并将文件指针指向文件头；如果文件存在则将其内容清空，如果文件不存在则创建a以只追加可写模式打开文件，并将文件指针指向文件尾部；如果文件不存在则创建r+在r的基础上增加了可写功能w+在w的基础上增加了可读功能a+在a的基础上增加了可读功能b读写二进制文件（默认是t，表示文本），需要与上面几种模式搭配使用，如ab，wb, ab, ab+（POSIX系统，包括Linux都会忽略该字符）

思考1： r+、w+和a+都可以实现对文件的读写，那么他们有什么区别呢？
　　

r+会覆盖当前文件指针所在位置的字符，如原来文件内容是"Hello，World"，打开文件后写入"hi"则文件内容会变成"hillo, World"
　　
w+与r+的不同是，w+在打开文件时就会先将文件内容清空，不知道它有什么用
　　
a+与r+的不同是，a+只能写到文件末尾（无论当前文件指针在哪里）

思考2： 为什么要定义这些模式呢？为什么不能像我们用word打开一篇文档一样既可以读，又可以写，还可修改呢？
　　

关于这个问题，我查了很多资料，也没找到很权威的说明。在跟同行朋友交流过程中，发现大家主要有两种观点：

跟安全有关，有这种观点的大部分是做运维的朋友，他们认为这就像linux上的rwx（读、写、执行）权限。
　　
跟操作系统内核管理I/O的机制有关，有这种观点的大部分是做C开发的，特别是与内核相关的开发人员。为了提高读写速度，要写入磁盘的数据会先放进内存缓冲区，之后再回写。由于可能会同时打开很多文件，当要回写数据时，需要遍历以打开的文件判断是否需要回写。他们认为如果打开文件时指定了读写模式，那么需要回写时，只要去查找以“可写模式”打开的文件就可以了。

四、Python文件操作步骤示例

我们来读取这样一个文本文件：song.txt，该文件的字符编码为utf-8。

匆匆那年我们究竟说了几遍再见之后再拖延

　　可惜谁有没有爱过不是一场七情上面的雄辩

　　匆匆那年我们一时匆忙撂下难以承受的诺言

　　只有等别人兑现

1. 菜鸟实现（只是实现功能）：

Python3实现：

# 第一步：（以只读模式）打开文件f = open('song.txt', 'r', encoding='utf-8')# 第二步：读取文件内容print(f.read())# 第三步：关闭文件f.close()

这里说下Python2的实现

# 第一步：（以只读模式）打开文件f = open('song.txt', 'r')# 第二步：读取文件内容print(f.read().decode('utf-8'))# 第三步：关闭文件f.close()

说明：
Python3中已经内置对Unicode的支持，字符串str已经是真正的Unicode字符串。也就是说Python3中的文件读取方法已经自动完成了解码处理，因此无需再手动进行解码，可以直接将读取的文件中的内容进行打印；Python2中的字符串str是字节串，读取文件得到的也是字节串，在打印之前应该手动将其解码成Unicode字符串。关于这部分的说明，可以参考之前这篇文章<<再谈Python中的字符串与字符编码>>。

2. 中级实现

在实现基本功能的前提下，考虑一些可能的意外因素。因为文件读写时都有可能产生IO错误（IOError），一旦出错，后面包括f.close()在内的所有代码都不会执行了。因此我们要保证文件无论如何都能被关闭。那么可以用try...finally来实现，这实际上就是try...except..finally的简化版（我们只用Python3来进行示例演示）：

f = ''try:
　　 f = open('song.txt', 'r', encoding='utf-8') print(f.read())
　　 num = 10 / 0finally: print('>>>>>>finally') if f:
　　 f.close()

输出结果：

匆匆那年我们 究竟说了几遍 再见之后再拖延
　　可惜谁有没有 爱过不是一场 七情上面的雄辩
　　匆匆那年我们 一时匆忙撂下 难以承受的诺言
　　只有等别人兑现>>>>>>finally
　　Traceback (most recent call last):
　　 File "<stdin>", line 4, in <module>ZeroDivisionError: division by zero

输出结果说明，尽管with代码块中出现了异常，但是”>>>>>>finally“ 信息还是被打印了，说明finally代码块被执行，即文件关闭操作被执行。但是结果中错误信息还是被输出了，因此还是建议用一个完成的try...except...finally语句对异常信息进行捕获和处理。

3. 最佳实践

为了避免忘记或者为了避免每次都要手动关闭文件，我们可以使用with语句（一种语法糖，语法糖语句通常是为了简化某些操作而设计的）。with语句会在其代码块执行完毕之后自动关闭文件。因此我们可以这样来改写上面的程序：

with open('song.txt', 'r', encoding='utf-8') as f: print(f.read())print(f.closed)

输出结果：

匆匆那年我们 究竟说了几遍 再见之后再拖延可惜谁有没有 爱过不是一场 七情上面的雄辩匆匆那年我们 一时匆忙撂下 难以承受的诺言只有等别人兑现True

是不是变得简介多了，代码结构也比较清晰了。with之后打印的f.closed属性值为True，说明文件确实被关闭了。

思考:
with语句会帮我们自动处理异常信息吗？
　　

要回答这个问题就要提到“上下文管理器” 和 with语句的工作流程。

with语句不仅仅可以用于文件操作，它实际上是一个很通用的结构，允许使用所谓的上下文管理器（context manager）。上下文管理器是一种支持__enter__()和__exit__()这两个方法的对象。__enter__()方法不带任何参数，它在进入with语句块的时候被调用，该方法的返回值会被赋值给as关键字之后的变量。__exit__()方法带有3个参数：type（异常类型）, value（异常信息）, trace（异常栈），当with语句的代码块执行完毕或执行过程中因为异常而被终止都会调用__exit__()方法。正常退出时该方法的3个参数都为None，异常退出时该方法的3个参数会被分别赋值。如果__exit__()方法返回值（真值测试结果）为True则表示异常已经被处理，命令执行结果中就不会抛出异常信息了；反之，如果__exit__()方法返回值（真值测试结果）为False，则表示异常没有被处理并且会向外抛出该异常。

现在我们应该明白了，异常信息会不会被处理是由with后的语句返回对象的__exit__()方法决定的。文件可以被用作上下文管理器。它的__enter__方法返回文件对象本身，__exit__方法会关闭文件并返回None。我们看下file类中关于这两个方法的实现：

def __enter__(self): # real signature unknown; restored from __doc__
　　 """ __enter__() -> self. """
　　 return self 
　　def __exit__(self, *excinfo): # real signature unknown; restored from __doc__
　　 """ __exit__(*excinfo) -> None. Closes the file. """
　　 pass

可见，file类的__exit__()方法的返回值为None，None的真值测试结果为False，因此用于文件读写的with语句代码块中的异常信息还是会被抛出来，需要我们自己去捕获并处理。

with open('song.txt', 'r', encoding='utf-8') as f: print(f.read()) num = 10 / 0

输出结果：

匆匆那年我们究竟说了几遍再见之后再拖延

　　可惜谁有没有爱过不是一场七情上面的雄辩

　　匆匆那年我们一时匆忙撂下难以承受的诺言

　　只有等别人兑现

　　Traceback (most recent call last): File "<stdin>", line 3, in <module>

　　ZeroDivisionError: division by zero

注意： 上面所说的__exit__()方法返回值（真值测试结果）为True则表示异常已经被处理，指的是with代码块中出现的异常。它对于with关键字之后的代码中出现的异常是不起作用的，因为还没有进入上下文管理器就已经发生异常了。因此，无论如何，还是建议在必要的时候在with语句外面套上一层try...except来捕获和处理异常。

有关“上下文管理器”这个强大且高级的特性的更多信息，请参看Python参考手册中的上下文管理器部分。或者可以在Python库参考中查看上下文管理器和contextlib部分。

五、Python文件读取相关方法

我们知道，对文件的读取操作需要将文件中的数据加载到内存中，而上面所用到的read()方法会一次性把文件中所有的内容全部加载到内存中。这明显是不合理的，当遇到一个几个G的的文件时，必然会耗光机器的内存。这里我们来介绍下Python中读取文件的相关方法：

　　方法描述read()一次读取文件所有内容，返回一个strread(size)每次最多读取指定长度的内容，返回一个str；在Python2中size指定的是字节长度，在Python3中size指定的是字符长度readlines()一次读取文件所有内容，按行返回一个listreadline()每次只读取一行内容

此外，还要两个与文件指针位置相关的方法

　　方法描述seek(n)将文件指针移动到指定字节的位置tell()获取当前文件指针所在字节位置

下面来看下操作实例

1. 读取指定长度的内容

Python2

with open('song.txt', 'r') as f: print(f.read(12).decode('utf-8'))

输出结果：

匆匆那年

结果说明：Python2中read(size)方法的size参数指定的要读取的字节数，而song.txt文件是UTF-8编码的内容，一个汉字占3个字节，因此12个字节刚好是4个汉字。
　　

Python3

with open('song.txt', 'r', encoding='utf-8') as f: print(f.read(12))

输出结果：

匆匆那年我们 究竟说

结果说明：Python3中read(size)方法的size参数指定的要读取的字符数，这与文件的字符编码无关，就是返回12个字符。
　　

2. 读取文件中的一行内容

Python2

with open('song.txt', 'r', encoding='utf-8') as f: print(f.readline())

Python3

with open('song.txt', 'r') as f: print(f.readline().decode('utf-8'))

输出结果都一样：

匆匆那年我们 究竟说了几遍 再见之后再拖延

3. 遍历打印一个文件中的每一行

这里我们只以Python3来进行实例操作，Python2仅仅是需要在读取到内容后进行手动解码而已，上面已经有示例。

方式一：先一次性读取所有行到内存，然后再遍历打印

with open('song.txt', 'r', encoding='utf-8') as f: for line in f.readlines():
　　 print(line)

输出结果：

匆匆那年我们究竟说了几遍再见之后再拖延

　　可惜谁有没有爱过不是一场七情上面的雄辩

　　匆匆那年我们一时匆忙撂下难以承受的诺言

　　只有等别人兑现

这种方式的缺点与read()方法是一样。

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。

二、文件读写实现原理与操作步骤

1. 文件读写实现原理

2. 文件读写操作步骤

三、文件打开模式

Python

PHP

C语言

四、Python文件操作步骤示例

1. 菜鸟实现（只是实现功能）：

2. 中级实现

3. 最佳实践

五、Python文件读取相关方法

1. 读取指定长度的内容

Python2

Python3

2. 读取文件中的一行内容

Python2

Python3

3. 遍历打印一个文件中的每一行

方式一：先一次性读取所有行到内存，然后再遍历打印

相关文章阅读