当从父数据帧中选择子数据帧时,我注意到一些程序员使用.copy()方法来复制数据帧。例如,

X = my_dataframe[features_list].copy()

...而不仅仅是

X = my_dataframe[features_list]

他们为什么要复制数据帧?如果我不复制一份会怎么样?


当前回答

在使用copy()之前,我非常粗心,直到使用下面这行代码 如果不使用copy(), df_genel3中的更改会影响df_genel

df_genel3 = df_genel
df_genel3.loc[(df_genel3['Hareket']=='İmha') , 'Hareket_Tutar'] = tutar 

Copy()解决了这个问题

df_genel3 = df_genel.copy()
df_genel3.loc[(df_genel3['Hareket']=='İmha') , 'Hareket_Tutar'] = tutar

其他回答

熊猫深度拷贝保持初始数据框架不变。

当你想要规范化一个DataFrame并且想要保持初始df不变时,这个特性特别有用。 例如:

df = pd.DataFrame(np.arange(20).reshape(2,10))

然后将数据归一化:

# Using Sklearn MinMaxSacaler method
scaler = preprocessing.MinMaxScaler()

在第一个的基础上求一个新的df希望第一个不变, 你必须使用.copy()方法

new_df = pd.DataFrame(df).copy() # Deep Copy
for i in range(10):
    pd_features[i] = scaler.fit_transform(unnormal_pd_features[i].values.reshape(-1,1))

否则原来的df也会改变。

在使用copy()之前,我非常粗心,直到使用下面这行代码 如果不使用copy(), df_genel3中的更改会影响df_genel

df_genel3 = df_genel
df_genel3.loc[(df_genel3['Hareket']=='İmha') , 'Hareket_Tutar'] = tutar 

Copy()解决了这个问题

df_genel3 = df_genel.copy()
df_genel3.loc[(df_genel3['Hareket']=='İmha') , 'Hareket_Tutar'] = tutar

一般来说,在副本上工作比在原始数据帧上工作更安全,除非您知道不再需要原始数据并希望继续使用修改过的版本。通常情况下,您仍然可以将原始数据帧与经过处理的版本进行比较,等等。因此,大多数人都在复制,最后合并。

有必要提到,返回副本或视图取决于索引的类型。

熊猫的文件说:

返回一个视图和一个副本 关于何时返回数据视图的规则完全是 取决于NumPy。每当一个标签数组或布尔向量 都涉及到索引操作,结果将是一个副本。 使用单标签/标量索引和切片,例如df。第九[3:6]或 df。ix[:, 'A'],将返回一个视图。

因为如果你不复制,那么即使你把dataFrame赋给一个不同的名字,索引仍然可以在其他地方被操纵。

例如:

df2 = df
func1(df2)
func2(df)

Func1可以通过修改df2来修改df,为了避免:

df2 = df.copy()
func1(df2)
func2(df)