如何在Pandas中迭代DataFrame中的行

我有一个熊猫数据帧，df：

如何迭代此数据帧的行？对于每一行，我希望能够通过列的名称访问其元素（单元格中的值）。例如：

for row in df.rows:
    print(row['c1'], row['c2'])

我发现了一个类似的问题，建议使用以下任一项：

for date, row in df.T.iteritems():

for row in df.iterrows():

但我不知道row对象是什么，以及如何使用它。

当前回答

更新：cs95更新了他的答案，包括简单的numpy矢量化。你可以简单地参考他的答案。

cs95表明，Pandas矢量化在使用数据帧计算数据方面远远优于其他Pandas方法。

我想补充一点，如果您首先将数据帧转换为NumPy数组，然后使用矢量化，它甚至比Pandas数据帧矢量化更快（这包括将其转换回数据帧序列的时间）。

如果您将以下函数添加到cs95的基准代码中，这将变得非常明显：

def np_vectorization(df):
    np_arr = df.to_numpy()
    return pd.Series(np_arr[:,0] + np_arr[:,1], index=df.index)

def just_np_vectorization(df):
    np_arr = df.to_numpy()
    return np_arr[:,0] + np_arr[:,1]

2020-03-24 17:57:16

其他回答

更新：cs95更新了他的答案，包括简单的numpy矢量化。你可以简单地参考他的答案。

cs95表明，Pandas矢量化在使用数据帧计算数据方面远远优于其他Pandas方法。

我想补充一点，如果您首先将数据帧转换为NumPy数组，然后使用矢量化，它甚至比Pandas数据帧矢量化更快（这包括将其转换回数据帧序列的时间）。

如果您将以下函数添加到cs95的基准代码中，这将变得非常明显：

def np_vectorization(df):
    np_arr = df.to_numpy()
    return pd.Series(np_arr[:,0] + np_arr[:,1], index=df.index)

def just_np_vectorization(df):
    np_arr = df.to_numpy()
    return np_arr[:,0] + np_arr[:,1]

2020-03-24 17:57:16

 for ind in df.index:
     print df['c1'][ind], df['c2'][ind]

2017-11-02 10:33:40

简言之

如果可能，使用矢量化如果操作无法矢量化，请使用列表综合如果需要一个表示整个行的对象，请使用itert元组如果以上步骤太慢，请尝试快速应用如果速度仍然太慢，试试赛马拉松的套路

基准

2020-06-01 16:22:44

虽然iterrows（）是一个很好的选项，但有时itertples（）会快得多：

df = pd.DataFrame({'a': randn(1000), 'b': randn(1000),'N': randint(100, 1000, (1000)), 'x': 'x'})

%timeit [row.a * 2 for idx, row in df.iterrows()]
# => 10 loops, best of 3: 50.3 ms per loop

%timeit [row[1] * 2 for row in df.itertuples()]
# => 1000 loops, best of 3: 541 µs per loop

2015-09-20 13:52:48

您可以编写自己的迭代器来实现namedtuple

from collections import namedtuple

def myiter(d, cols=None):
    if cols is None:
        v = d.values.tolist()
        cols = d.columns.values.tolist()
    else:
        j = [d.columns.get_loc(c) for c in cols]
        v = d.values[:, j].tolist()

    n = namedtuple('MyTuple', cols)

    for line in iter(v):
        yield n(*line)

这与pd.DataFrame.itertuples直接相当。我的目标是以更高的效率执行相同的任务。

对于具有我的函数的给定数据帧：

list(myiter(df))

[MyTuple(c1=10, c2=100), MyTuple(c1=11, c2=110), MyTuple(c1=12, c2=120)]

或使用pd.DataFrame.itertuples：

list(df.itertuples(index=False))

[Pandas(c1=10, c2=100), Pandas(c1=11, c2=110), Pandas(c1=12, c2=120)]

全面测试我们测试使所有列可用并对列进行子设置。

def iterfullA(d):
    return list(myiter(d))

def iterfullB(d):
    return list(d.itertuples(index=False))

def itersubA(d):
    return list(myiter(d, ['col3', 'col4', 'col5', 'col6', 'col7']))

def itersubB(d):
    return list(d[['col3', 'col4', 'col5', 'col6', 'col7']].itertuples(index=False))

res = pd.DataFrame(
    index=[10, 30, 100, 300, 1000, 3000, 10000, 30000],
    columns='iterfullA iterfullB itersubA itersubB'.split(),
    dtype=float
)

for i in res.index:
    d = pd.DataFrame(np.random.randint(10, size=(i, 10))).add_prefix('col')
    for j in res.columns:
        stmt = '{}(d)'.format(j)
        setp = 'from __main__ import d, {}'.format(j)
        res.at[i, j] = timeit(stmt, setp, number=100)

res.groupby(res.columns.str[4:-1], axis=1).plot(loglog=True);

2017-11-07 04:15:19

如何在Pandas中迭代DataFrame中的行

推荐文章

最新文章

标签