如何在Pandas中迭代DataFrame中的行

我有一个熊猫数据帧，df：

如何迭代此数据帧的行？对于每一行，我希望能够通过列的名称访问其元素（单元格中的值）。例如：

for row in df.rows:
    print(row['c1'], row['c2'])

我发现了一个类似的问题，建议使用以下任一项：

for date, row in df.T.iteritems():

for row in df.iterrows():

但我不知道row对象是什么，以及如何使用它。

当前回答

您还可以进行NumPy索引，以实现更高的速度。它不是真正的迭代，但对某些应用程序来说，它比迭代好得多。

subset = row['c1'][0:5]
all = row['c1'][:]

您可能还希望将其强制转换为数组。这些索引/选择本来应该像NumPy数组一样，但我遇到了一些问题，需要转换

np.asarray(all)
imgs[:] = cv2.resize(imgs[:], (224,224) ) # Resize every image in an hdf5 file

2017-12-01 17:49:50

其他回答

可能是最优雅的解决方案（但肯定不是最有效的）：

for row in df.values:
    c2 = row[1]
    print(row)
    # ...

for c1, c2 in df.values:
    # ...

注意：

文档明确建议改用.to_numpy（）在最坏的情况下，生成的NumPy数组将具有适合所有列的dtype对象首先有充分的理由不使用循环

尽管如此，我认为这个选项应该包含在这里，作为一个（人们应该认为）微不足道的问题的直接解决方案。

2021-07-28 14:47:17

更新：cs95更新了他的答案，包括简单的numpy矢量化。你可以简单地参考他的答案。

cs95表明，Pandas矢量化在使用数据帧计算数据方面远远优于其他Pandas方法。

我想补充一点，如果您首先将数据帧转换为NumPy数组，然后使用矢量化，它甚至比Pandas数据帧矢量化更快（这包括将其转换回数据帧序列的时间）。

如果您将以下函数添加到cs95的基准代码中，这将变得非常明显：

def np_vectorization(df):
    np_arr = df.to_numpy()
    return pd.Series(np_arr[:,0] + np_arr[:,1], index=df.index)

def just_np_vectorization(df):
    np_arr = df.to_numpy()
    return np_arr[:,0] + np_arr[:,1]

2020-03-24 17:57:16

对于查看和修改值，我将使用iterrows（）。在for循环中，通过使用元组解包（参见示例：i，row），我使用行仅查看值，并在需要修改值时使用i和loc方法。正如前面的回答所述，这里您不应该修改正在迭代的内容。

for i, row in df.iterrows():
    df_column_A = df.loc[i, 'A']
    if df_column_A == 'Old_Value':
        df_column_A = 'New_value'

在这里，循环中的行是该行的副本，而不是它的视图。因此，您不应该编写类似于行['a']='New_Value'的内容，它不会修改DataFrame。但是，您可以使用i和loc并指定DataFrame来完成这项工作。

2019-02-27 00:29:49

我正在寻找如何迭代行和列，并在这里结束：

for i, row in df.iterrows():
    for j, column in row.iteritems():
        print(column)

2018-01-17 09:41:29

我们有多种选择来做同样的事情，很多人都分享了他们的答案。

我发现以下两种方法既简单又有效：

DataFrame.iterrows（）DataFrame.itertuples（）

例子：

 import pandas as pd
 inp = [{'c1':10, 'c2':100}, {'c1':11,'c2':110}, {'c1':12,'c2':120}]
 df = pd.DataFrame(inp)
 print (df)

 # With the iterrows method

 for index, row in df.iterrows():
     print(row["c1"], row["c2"])

 # With the itertuples method

 for row in df.itertuples(index=True, name='Pandas'):
     print(row.c1, row.c2)

注意：itertples（）应该比iterrows（）快

2021-11-24 12:39:13

如何在Pandas中迭代DataFrame中的行

推荐文章

最新文章

标签