我如何阅读一个大的csv文件与熊猫?

我试图读取一个大的csv文件(aprox。6 GB)在熊猫和我得到一个内存错误:

MemoryError                               Traceback (most recent call last)
<ipython-input-58-67a72687871b> in <module>()
----> 1 data=pd.read_csv('aphro.csv',sep=';')

...

MemoryError:

有什么帮助吗?

当前回答

如果你有一个csv文件，有数百万个数据条目，你想要加载完整的数据集，你应该使用dask_cudf，

import dask_cudf as dc

df = dc.read_csv("large_data.csv")

2021-07-31 16:09:39

其他回答

下面是一个例子:

chunkTemp = []
queryTemp = []
query = pd.DataFrame()

for chunk in pd.read_csv(file, header=0, chunksize=<your_chunksize>, iterator=True, low_memory=False):

    #REPLACING BLANK SPACES AT COLUMNS' NAMES FOR SQL OPTIMIZATION
    chunk = chunk.rename(columns = {c: c.replace(' ', '') for c in chunk.columns})

    #YOU CAN EITHER: 
    #1)BUFFER THE CHUNKS IN ORDER TO LOAD YOUR WHOLE DATASET 
    chunkTemp.append(chunk)

    #2)DO YOUR PROCESSING OVER A CHUNK AND STORE THE RESULT OF IT
    query = chunk[chunk[<column_name>].str.startswith(<some_pattern>)]   
    #BUFFERING PROCESSED DATA
    queryTemp.append(query)

#!  NEVER DO pd.concat OR pd.DataFrame() INSIDE A LOOP
print("Database: CONCATENATING CHUNKS INTO A SINGLE DATAFRAME")
chunk = pd.concat(chunkTemp)
print("Database: LOADED")

#CONCATENATING PROCESSED DATA
query = pd.concat(queryTemp)
print(query)

2019-05-27 06:12:25

如果你有一个csv文件，有数百万个数据条目，你想要加载完整的数据集，你应该使用dask_cudf，

import dask_cudf as dc

df = dc.read_csv("large_data.csv")

2021-07-31 16:09:39

函数read_csv和read_table几乎是一样的。但在程序中使用read_table函数时，必须分配分隔符“，”。

def get_from_action_data(fname, chunk_size=100000):
    reader = pd.read_csv(fname, header=0, iterator=True)
    chunks = []
    loop = True
    while loop:
        try:
            chunk = reader.get_chunk(chunk_size)[["user_id", "type"]]
            chunks.append(chunk)
        except StopIteration:
            loop = False
            print("Iteration is stopped")

    df_ac = pd.concat(chunks, ignore_index=True)

2017-04-26 15:02:38

你可以尝试sframe，它和pandas有相同的语法，但是允许你操作比你的RAM大的文件。

2017-01-07 13:22:50

在使用chunksize选项之前，如果你想确定你想要在@unutbu提到的分块for循环中写入的进程函数，你可以简单地使用nrows选项。

small_df = pd.read_csv(filename, nrows=100)

一旦确定流程块准备好了，就可以将其放入整个数据帧的分块for循环中。

2020-03-18 19:57:49

我如何阅读一个大的csv文件与熊猫?

推荐文章

最新文章

标签