如何在Pandas中迭代DataFrame中的行

我有一个熊猫数据帧，df：

如何迭代此数据帧的行？对于每一行，我希望能够通过列的名称访问其元素（单元格中的值）。例如：

for row in df.rows:
    print(row['c1'], row['c2'])

我发现了一个类似的问题，建议使用以下任一项：

for date, row in df.T.iteritems():

for row in df.iterrows():

但我不知道row对象是什么，以及如何使用它。

当前回答

本例使用iloc隔离数据帧中的每个数字。

import pandas as pd

 a = [1, 2, 3, 4]
 b = [5, 6, 7, 8]

 mjr = pd.DataFrame({'a':a, 'b':b})

 size = mjr.shape

 for i in range(size[0]):
     for j in range(size[1]):
         print(mjr.iloc[i, j])

2019-03-16 22:33:02

其他回答

除了这篇文章中的好答案，我将提出“分而治之”的方法，我写这个答案并不是为了废除其他好答案，而是为了用另一种对我有效的方法来实现它们。它有两个步骤，即拆分和合并熊猫数据帧：

分裂与征服的证明：

您不需要使用矢量化或任何其他方法将数据帧的类型转换为另一种类型您不需要将代码循环化，这通常需要额外的时间在我的例子中，iterrows（）和itertples（）在整个数据帧上都具有相同的性能根据您对切片索引的选择，您将能够以指数方式加快迭代。索引越高，迭代过程越快。

分裂与征服的缺点：

您不应该依赖于同一数据帧和不同切片的迭代过程。这意味着，如果你想从其他切片读取或写入，那么可能很难做到这一点。

===============分而治之=================

步骤1：分割/切片

在这一步中，我们将在整个数据帧上划分迭代。假设你要将一个CSV文件读入panda df，然后对其进行迭代。在这种情况下，我有5000000条记录，我要将其拆分为100000条记录。

注意：我需要重申，正如本页其他解决方案中解释的其他运行时分析一样，在df上搜索时，“记录数”与“运行时”成指数比例。基于我的数据基准，以下是结果：

Number of records | Iteration rate [per second]
========================================
100,000           | 500
500,000           | 200
1,000,000         | 50
5,000,000         | 20

第2步：合并

这将是一个简单的步骤，只需将所有写入的CSV文件合并到一个数据帧中，然后将其写入一个更大的CSV文件。

以下是示例代码：

# Step 1 (Splitting/Slicing)
import pandas as pd
df_all = pd.read_csv('C:/KtV.csv')
df_index = 100000
df_len = len(df)
for i in range(df_len // df_index + 1):
    lower_bound = i * df_index
    higher_bound = min(lower_bound + df_index, df_len)
    # Splitting/slicing df (make sure to copy() otherwise it will be a view
    df = df_all[lower_bound:higher_bound].copy()
    '''
    Write your iteration over the sliced df here
    using iterrows() or intertuples() or ...
    '''
    # Writing into CSV files
    df.to_csv('C:/KtV_prep_' + str(i) + '.csv')



# Step 2 (Merging)
filename = 'C:/KtV_prep_'
df = (pd.read_csv(f) for f in [filename + str(i) + '.csv' for i in range(ktv_len // ktv_index + 1)])
df_prep_all = pd.concat(df)
df_prep_all.to_csv('C:/KtV_prep_all.csv')

参考：

数据流迭代的有效方法

将CSV文件连接到一个Pandas数据帧中

2020-10-02 20:30:47

如何高效迭代

如果您真的需要迭代Pandas数据帧，您可能希望避免使用iterrows（）。有不同的方法，通常的iterrows（）远远不是最好的。itertples（）可以快100倍。

简而言之：

作为一般规则，使用df.itertuples（name=None）。特别是当列数固定且少于255列时。见第（3）点否则，请使用df.itertuples（），除非您的列包含空格或“-”等特殊字符。见第（2）点使用上一个示例，即使数据帧中有奇怪的列，也可以使用itertples（）。见第（4）点如果无法使用前面的解决方案，请仅使用iterrows（）。见第（1）点

对Pandas数据帧中的行进行迭代的不同方法：

生成具有百万行和4列的随机数据帧：

    df = pd.DataFrame(np.random.randint(0, 100, size=(1000000, 4)), columns=list('ABCD'))
    print(df)

1）通常的iterrows（）很方便，但速度很慢：

start_time = time.clock()
result = 0
for _, row in df.iterrows():
    result += max(row['B'], row['C'])

total_elapsed_time = round(time.clock() - start_time, 2)
print("1. Iterrows done in {} seconds, result = {}".format(total_elapsed_time, result))

2）默认的itertples（）已经快得多，但它不适用于列名称，例如My Col Name is very Strange（我的列名称非常奇怪）（如果列重复或列名称不能简单地转换为Python变量名称，则应避免使用此方法）

start_time = time.clock()
result = 0
for row in df.itertuples(index=False):
    result += max(row.B, row.C)

total_elapsed_time = round(time.clock() - start_time, 2)
print("2. Named Itertuples done in {} seconds, result = {}".format(total_elapsed_time, result))

3）使用name=None的默认itertples（）甚至更快，但并不方便，因为您必须为每列定义一个变量。

start_time = time.clock()
result = 0
for(_, col1, col2, col3, col4) in df.itertuples(name=None):
    result += max(col2, col3)

total_elapsed_time = round(time.clock() - start_time, 2)
print("3. Itertuples done in {} seconds, result = {}".format(total_elapsed_time, result))

4）最后，命名的itertples（）比上一点慢，但您不必为每列定义变量，它可以处理列名称，例如My Col Name is very Strange。

start_time = time.clock()
result = 0
for row in df.itertuples(index=False):
    result += max(row[df.columns.get_loc('B')], row[df.columns.get_loc('C')])

total_elapsed_time = round(time.clock() - start_time, 2)
print("4. Polyvalent Itertuples working even with special characters in the column name done in {} seconds, result = {}".format(total_elapsed_time, result))

输出：

         A   B   C   D
0       41  63  42  23
1       54   9  24  65
2       15  34  10   9
3       39  94  82  97
4        4  88  79  54
...     ..  ..  ..  ..
999995  48  27   4  25
999996  16  51  34  28
999997   1  39  61  14
999998  66  51  27  70
999999  51  53  47  99

[1000000 rows x 4 columns]

1. Iterrows done in 104.96 seconds, result = 66151519
2. Named Itertuples done in 1.26 seconds, result = 66151519
3. Itertuples done in 0.94 seconds, result = 66151519
4. Polyvalent Itertuples working even with special characters in the column name done in 2.94 seconds, result = 66151519

本文是iterrows和itertules之间的一个非常有趣的比较

2019-12-19 16:02:14

有时，有用的模式是：

# Borrowing @KutalmisB df example
df = pd.DataFrame({'col1': [1, 2], 'col2': [0.1, 0.2]}, index=['a', 'b'])
# The to_dict call results in a list of dicts
# where each row_dict is a dictionary with k:v pairs of columns:value for that row
for row_dict in df.to_dict(orient='records'):
    print(row_dict)

结果是：

{'col1':1.0, 'col2':0.1}
{'col1':2.0, 'col2':0.2}

2018-06-27 18:48:28

我正在寻找如何迭代行和列，并在这里结束：

for i, row in df.iterrows():
    for j, column in row.iteritems():
        print(column)

2018-01-17 09:41:29

有些库（例如我使用的Java互操作库）要求一次在一行中传递值，例如，如果是流数据。为了复制流式传输的特性，我将数据帧值逐一“流式传输”，我写了以下内容，这些内容不时会派上用场。

class DataFrameReader:
  def __init__(self, df):
    self._df = df
    self._row = None
    self._columns = df.columns.tolist()
    self.reset()
    self.row_index = 0

  def __getattr__(self, key):
    return self.__getitem__(key)

  def read(self) -> bool:
    self._row = next(self._iterator, None)
    self.row_index += 1
    return self._row is not None

  def columns(self):
    return self._columns

  def reset(self) -> None:
    self._iterator = self._df.itertuples()

  def get_index(self):
    return self._row[0]

  def index(self):
    return self._row[0]

  def to_dict(self, columns: List[str] = None):
    return self.row(columns=columns)

  def tolist(self, cols) -> List[object]:
    return [self.__getitem__(c) for c in cols]

  def row(self, columns: List[str] = None) -> Dict[str, object]:
    cols = set(self._columns if columns is None else columns)
    return {c : self.__getitem__(c) for c in self._columns if c in cols}

  def __getitem__(self, key) -> object:
    # the df index of the row is at index 0
    try:
        if type(key) is list:
            ix = [self._columns.index(key) + 1 for k in key]
        else:
            ix = self._columns.index(key) + 1
        return self._row[ix]
    except BaseException as e:
        return None

  def __next__(self) -> 'DataFrameReader':
    if self.read():
        return self
    else:
        raise StopIteration

  def __iter__(self) -> 'DataFrameReader':
    return self

可用于：

for row in DataFrameReader(df):
  print(row.my_column_name)
  print(row.to_dict())
  print(row['my_column_name'])
  print(row.tolist())

并保留正在迭代的行的值/名称映射。显然，它比上面提到的使用apply和Cython慢得多，但在某些情况下是必要的。

2019-12-10 09:36:45

如何在Pandas中迭代DataFrame中的行

推荐文章

最新文章

标签