如何可逆地存储和加载一个熊猫数据帧到/从磁盘

现在，每次运行脚本时，我都会导入一个相当大的CSV作为数据框架。是否有一个好的解决方案来保持数据帧在运行之间不断可用，这样我就不必花费所有的时间等待脚本运行?

当前回答

https://docs.python.org/3/library/pickle.html

pickle协议格式如下:

协议版本0是原始的“人类可读”协议，并向后兼容Python的早期版本。

协议版本1是一种旧的二进制格式，它也与早期版本的Python兼容。

协议版本2是在Python 2.3中引入的。它提供了更有效的新样式类的pickle。有关协议2带来的改进，请参阅PEP 307。

协议版本3是在Python 3.0中添加的。它显式支持bytes对象，不能被Python 2.x解封。这是默认协议，也是在需要与其他Python 3版本兼容时的推荐协议。

协议版本4是在Python 3.4中添加的。它增加了对非常大的对象、pickle更多类型的对象以及一些数据格式优化的支持。有关协议4带来的改进的信息，请参阅PEP 3154。

2019-04-12 06:18:43

其他回答

Arctic是一个高性能的Pandas, numpy和其他数值数据的数据存储。它位于MongoDB之上。也许对于OP来说有点过分了，但对于其他无意中看到这篇文章的人来说，值得一提

2020-09-26 09:47:13

Pandas DataFrame有to_pickle函数，这对于保存DataFrame非常有用:

import pandas as pd

a = pd.DataFrame({'A':[0,1,0,1,0],'B':[True, True, False, False, False]})
print a
#    A      B
# 0  0   True
# 1  1   True
# 2  0  False
# 3  1  False
# 4  0  False

a.to_pickle('my_file.pkl')

b = pd.read_pickle('my_file.pkl')
print b
#    A      B
# 0  0   True
# 1  1   True
# 2  0  False
# 3  1  False
# 4  0  False

2015-11-12 21:46:29

泡菜很好!

import pandas as pd
df.to_pickle('123.pkl')    #to save the dataframe, df to 123.pkl
df1 = pd.read_pickle('123.pkl') #to load 123.pkl back to the dataframe df

2015-10-10 04:52:42

如前所述，有不同的选项和文件格式(HDF5, JSON, CSV, parquet, SQL)来存储数据帧。然而，pickle不是一级公民(取决于你的设置)，因为:

泡菜是一个潜在的安全隐患。形成pickle的Python文档:

警告pickle模块不安全恶意构造的数据。对象接收的数据永远不能解pickle 不受信任或未经身份验证的源。

泡菜很慢。找到这里和这里的基准。

根据您的设置/使用情况，这两个限制都不适用，但我不建议将pickle作为pandas数据帧的默认持久性。

2019-04-11 06:31:32

您可以使用羽毛格式的文件。它非常快。

df.to_feather('filename.ft')

2017-10-17 06:28:51

如何可逆地存储和加载一个熊猫数据帧到/从磁盘

推荐文章

最新文章

标签