我如何能逐行读取大文本文件，而不将它们加载到内存?

我想逐行读取一个大文件(>5GB)，而不将其全部内容加载到内存中。我不能使用readlines()，因为它在内存中创建了一个非常大的列表。

当前回答

这是我找到的最佳解决方案，我在330 MB的文件上尝试了一下。

lineno = 500
line_length = 8
with open('catfour.txt', 'r') as file:
    file.seek(lineno * (line_length + 2))
    print(file.readline(), end='')

其中line_length是单行中的字符数。例如，“abcd”的行长为4。

我添加了2个行长来跳过'\n'字符并移动到下一个字符。

2020-05-02 12:46:16

其他回答

谢谢你！我最近已经转换到python 3，并对使用readlines(0)读取大文件感到沮丧。这就解决了问题。但是为了得到每一行，我必须做一些额外的步骤。每一行之前都有一个“b”，我猜这是二进制格式的。使用“decode(utf-8)”将其更改为ascii。

然后我必须在每行中间删除一个“=\n”。

然后我在新线处把线分开。

b_data=(fh.read(ele[1]))#endat This is one chunk of ascii data in binary format
        a_data=((binascii.b2a_qp(b_data)).decode('utf-8')) #Data chunk in 'split' ascii format
        data_chunk = (a_data.replace('=\n','').strip()) #Splitting characters removed
        data_list = data_chunk.split('\n')  #List containing lines in chunk
        #print(data_list,'\n')
        #time.sleep(1)
        for j in range(len(data_list)): #iterate through data_list to get each item 
            i += 1
            line_of_data = data_list[j]
            print(line_of_data)

下面是Arohi代码中“打印数据”上方的代码。

2018-01-18 15:28:19

我不敢相信这能像@john-la-rooy的回答看起来那么简单。因此，我使用逐行读写重新创建了cp命令。这是疯狂的快。

#!/usr/bin/env python3.6

import sys

with open(sys.argv[2], 'w') as outfile:
    with open(sys.argv[1]) as infile:
        for line in infile:
            outfile.write(line)

2017-08-10 21:48:08

如果你在文件中没有换行符，你可以这样做:

with open('large_text.txt') as f:
  while True:
    c = f.read(1024)
    if not c:
      break
    print(c,end='')

2018-05-06 15:20:56

这是我找到的最佳解决方案，我在330 MB的文件上尝试了一下。

lineno = 500
line_length = 8
with open('catfour.txt', 'r') as file:
    file.seek(lineno * (line_length + 2))
    print(file.readline(), end='')

其中line_length是单行中的字符数。例如，“abcd”的行长为4。

我添加了2个行长来跳过'\n'字符并移动到下一个字符。

2020-05-02 12:46:16

老派方法:

fh = open(file_name, 'rt')
line = fh.readline()
while line:
    # do stuff with line
    line = fh.readline()
fh.close()

2011-06-25 02:31:27

我如何能逐行读取大文本文件，而不将它们加载到内存?

推荐文章

最新文章

标签