如何在 Pandas 中遍历 DataFrame 中的行

本文介绍: 我有一个熊猫数据框，df：如何迭代此数据框的行？对于每一行，我希望能够通过列名访问其元素（单元格中的值）。例如：我发现了一个 sim ilar ques t ion，它建议使用以下任何一种：但我不明白 row 对象是什么以及如何使用它。

我有一个熊猫数据框，df：

如何迭代此数据框的行？对于每一行，我希望能够通过列名访问其元素（单元格中的值）。例如：

for row in df.rows:
   print(row['c1'], row['c2'])

我发现了一个 sim ilar ques t ion，它建议使用以下任何一种：

for date, row in df.T.iteritems():

for row in df.iterrows():

但我不明白 row 对象是什么以及如何使用它。

Da taFram e.i t errows 是生成索引和行（作为系列）的生成器：

import pandas as pd

df = pd.DataFrame({'c1': [10, 11, 12], 'c2': [100, 110, 120]})
df = df.reset_index()  # make sure indexes pair with number of rows

for index, row in df.iterrows():
    print(row['c1'], row['c2'])

10 100
11 110
12 120

注意：“因为 iterrows 为每一行返回一个系列，所以它不跨行保留 dtypes。”此外，“你不应该修改你正在迭代的东西。”根据pandas 0.19.1 docs

@viddik13 非常感谢。因此，我遇到了一种情况，其中像 431341610650 这样的数值读作 4.31E+11。有没有办法保留数据类型？

@AzizAlto 使用 itertuples，如下所述。另请参阅pandas.pydata.org/pandas-docs/stable/generated/…

不要使用 iterrows。 Itertuples 更快并保留数据类型。 More info

来自 the documentation：“遍历 pandas 对象通常很慢。在许多情况下，不需要手动遍历行[...]”。您的答案是正确的（在问题的上下文中），但在任何地方都没有提到这一点，所以它不是一个很好的答案。

# Iterating over one column - `f` is some function that processes your data
result = [f(x) for x in df['col']]
# Iterating over two columns, use `zip`
result = [f(x, y) for x, y in zip(df['col1'], df['col2'])]
# Iterating over multiple columns - same data type
result = [f(row[0], ..., row[n]) for row in df[['col1', ...,'coln']].to_numpy()]
# Iterating over multiple columns - differing data type
result = [f(row[0], ..., row[n]) for row in zip(df['col1'], ..., df['coln'])]

请注意，iterrows 和 itertuples 有一些重要的注意事项。有关详细信息，请参阅 this answer 和 pandas docs。

这是唯一一个专注于应该与 pandas 一起使用的惯用技术的答案，使其成为该问题的最佳答案。学习用正确的代码得到正确的答案（而不是用错误的代码得到正确的答案——即效率低下、无法扩展、太适合特定数据）是学习 pandas（以及一般数据）的重要组成部分。

不过，我认为您对 for 循环不公平，因为在我的测试中它们只比列表理解慢一点。诀窍是循环 zip(df['A'], df['B']) 而不是 df.iterrows()。

在 List Comprehensions 下，“迭代多列”示例需要注意：DataFrame.values 会将每一列转换为通用数据类型。 DataFrame.to_numpy() 也这样做。幸运的是，我们可以将 zip 用于任意数量的列。

@Dean 我经常收到这个回复，老实说让我很困惑。这一切都是为了养成良好的习惯。 “我的数据很小，性能并不重要，所以我可以原谅我使用这种反模式”..？当有一天性能确实很重要时，您会感谢自己提前准备了正确的工具。

    new_df = df.apply(lambda x: x * 2, axis = 1)

只是有人在完成后很长时间阅读该线程的一个小问题： df.apply() 在效率方面与 itertuples 相比如何？

注意：您也可以说 for row in df[['c1','c2']].itertuples(index=True, name=None): 之类的内容来仅在行迭代器中包含某些列。

您可以只使用 row.c1 而不是 getattr(row, "c1")。

我有大约 90% 的把握，如果您使用 getattr(row, "c1") 而不是 row.c1，您将失去 itertuples 的任何性能优势，并且如果您确实需要通过字符串访问该属性，则应该使用 iterrows 代替。

我偶然发现了这个问题，因为虽然我知道有拆分应用组合，但我仍然真的需要迭代 DataFrame（如问题所述）。不是每个人都可以使用 numba 和 cython 进行改进（同一个文档说“首先在 Python 中进行优化总是值得的”）。我写这个答案是为了帮助其他人避免（有时令人沮丧）的问题，因为其他答案都没有提到这些警告。误导任何人或告诉“这是正确的做法”从来都不是我的本意。我已经改进了答案。

这是否比将 DataFrame 转换为 numpy 数组（通过 .values）并直接对数组进行操作更快？我有同样的问题，但最终转换为 numpy 数组，然后使用 cython。

@vgoklani如果逐行迭代效率低下并且您有一个非对象numpy数组，那么几乎可以肯定使用原始numpy数组会更快，特别是对于具有多行的数组。你应该避免迭代行，除非你绝对必须

我对 df.iterrows()、df.itertuples() 和 zip(df['a'], df['b']) 的时间消耗进行了一些测试，并将结果发布在另一个答案中问题：stackoverflow.com/a/34311080/2142098

df = pd.DataFrame({'a': randn(1000), 'b': randn(1000),'N': randint(100, 1000, (1000)), 'x': 'x'})

%timeit [row.a * 2 for idx, row in df.iterrows()]
# => 10 loops, best of 3: 50.3 ms per loop

%timeit [row[1] * 2 for row in df.itertuples()]
# => 1000 loops, best of 3: 541 µs per loop

您的两个示例中的大部分时间差异似乎是由于您似乎对 .iterrows() 命令使用基于标签的索引，而对 .itertuples() 命令使用基于整数的索引。

对于基于金融数据的数据帧（时间戳和 4 倍浮点数），itertuples 比我的机器上的 iterrows 快 19,57 倍。只有 for a,b,c in izip(df["a"],df["b"],df["c"]: 几乎同样快。

你能解释为什么它更快吗？

@AbeMiessler iterrows() 将每行数据打包成一个系列，而 itertuples() 没有。

请注意，列的顺序实际上是不确定的，因为 df 是从字典创建的，因此 row[1] 可以引用任何列。事实证明，尽管整数与浮点列的时间大致相同。

for i in range(0, len(df)):
    print(df.iloc[i]['c1'], df.iloc[i]['c2'])

我知道应该避免这种情况，而支持 iterrows 或 itertuples，但知道为什么会很有趣。有什么想法吗？

如果您想保留数据类型并按名称引用列，这是我所知道的唯一有效技术。 itertuples 保留数据类型，但去掉它不喜欢的任何名称。 iterrows 则相反。

花了几个小时试图通过 pandas 数据结构的特质来做一些简单而富有表现力的事情。这会产生可读的代码。

虽然 for i in range(df.shape[0]) 可能会稍微加快这种方法，但对于我的应用程序，它仍然比上面的 iterrows() 方法慢约 3.5 倍。

在大型 Datafrmes 上，这似乎更好，因为 my_iter = df.itertuples() 需要双倍的内存和大量的时间来复制它。 iterrows() 相同。

def valuation_formula(x, y):
    return x * y * 0.5

df['price'] = df.apply(lambda row: valuation_formula(row['x'], row['y']), axis=1)

df['price'] 是指数据框中的列名吗？我正在尝试创建一个字典，其中包含 csv 文件中多个列的唯一值。我用你的逻辑创建了一个具有唯一键和值的字典，并得到一个错误说明 TypeError: ("'Series' objects are mutable, 因此它们不能被散列", u'occured at index 0')

代码：df['Workclass'] = df.apply(lambda row: dic_update(row), axis=1) end of line id = 0 end of line def dic_update(row): if row not in dic: dic[row] = ID ID = ID + 1

将轴默认为 0 是最糟糕的

请注意，apply 不会“迭代”行，而是逐行应用函数。如果您确实确实需要迭代和indeces，例如在比较不同行的值时（在这种情况下，您只能进行迭代），则上述代码将不起作用。

这是熊猫的合适答案

    df = pd.DataFrame(np.random.randint(0, 100, size=(1000000, 4)), columns=list('ABCD'))
    print(df)

start_time = time.clock()
result = 0
for _, row in df.iterrows():
    result += max(row['B'], row['C'])

total_elapsed_time = round(time.clock() - start_time, 2)
print("1. Iterrows done in {} seconds, result = {}".format(total_elapsed_time, result))

start_time = time.clock()
result = 0
for row in df.itertuples(index=False):
    result += max(row.B, row.C)

total_elapsed_time = round(time.clock() - start_time, 2)
print("2. Named Itertuples done in {} seconds, result = {}".format(total_elapsed_time, result))

start_time = time.clock()
result = 0
for(_, col1, col2, col3, col4) in df.itertuples(name=None):
    result += max(col2, col3)

total_elapsed_time = round(time.clock() - start_time, 2)
print("3. Itertuples done in {} seconds, result = {}".format(total_elapsed_time, result))

start_time = time.clock()
result = 0
for row in df.itertuples(index=False):
    result += max(row[df.columns.get_loc('B')], row[df.columns.get_loc('C')])

total_elapsed_time = round(time.clock() - start_time, 2)
print("4. Polyvalent Itertuples working even with special characters in the column name done in {} seconds, result = {}".format(total_elapsed_time, result))

         A   B   C   D
0       41  63  42  23
1       54   9  24  65
2       15  34  10   9
3       39  94  82  97
4        4  88  79  54
...     ..  ..  ..  ..
999995  48  27   4  25
999996  16  51  34  28
999997   1  39  61  14
999998  66  51  27  70
999999  51  53  47  99

[1000000 rows x 4 columns]

1. Iterrows done in 104.96 seconds, result = 66151519
2. Named Itertuples done in 1.26 seconds, result = 66151519
3. Itertuples done in 0.94 seconds, result = 66151519
4. Polyvalent Itertuples working even with special characters in the column name done in 2.94 seconds, result = 66151519

那么为什么这些低效的方法首先在 Pandas 中可用 - 如果“常识”不应该使用 iterrows 和 itertuples - 那么为什么它们在那里，或者更确切地说，为什么这些方法没有更新并在熊猫维护者的背景？

@Monty，并不总是可以矢量化所有操作。

for i, row in df.iterrows():
    for j, column in row.iteritems():
        print(column)

如果可能，您应该避免使用 iterrows()。我在答案 How to iterate efficiently 中解释了原因

from collections import namedtuple

def myiter(d, cols=None):
    if cols is None:
        v = d.values.tolist()
        cols = d.columns.values.tolist()
    else:
        j = [d.columns.get_loc(c) for c in cols]
        v = d.values[:, j].tolist()

    n = namedtuple('MyTuple', cols)

    for line in iter(v):
        yield n(*line)

list(myiter(df))

[MyTuple(c1=10, c2=100), MyTuple(c1=11, c2=110), MyTuple(c1=12, c2=120)]

list(df.itertuples(index=False))

[Pandas(c1=10, c2=100), Pandas(c1=11, c2=110), Pandas(c1=12, c2=120)]

def iterfullA(d):
    return list(myiter(d))

def iterfullB(d):
    return list(d.itertuples(index=False))

def itersubA(d):
    return list(myiter(d, ['col3', 'col4', 'col5', 'col6', 'col7']))

def itersubB(d):
    return list(d[['col3', 'col4', 'col5', 'col6', 'col7']].itertuples(index=False))

res = pd.DataFrame(
    index=[10, 30, 100, 300, 1000, 3000, 10000, 30000],
    columns='iterfullA iterfullB itersubA itersubB'.split(),
    dtype=float
)

for i in res.index:
    d = pd.DataFrame(np.random.randint(10, size=(i, 10))).add_prefix('col')
    for j in res.columns:
        stmt = '{}(d)'.format(j)
        setp = 'from __main__ import d, {}'.format(j)
        res.at[i, j] = timeit(stmt, setp, number=100)

res.groupby(res.columns.str[4:-1], axis=1).plot(loglog=True);

对于不想阅读代码的人：蓝线是 intertuples，橙线是通过 yield 块的迭代器列表。 interrows 不进行比较。

for x in range(len(date_example.index)):
    print date_example['Date'].iloc[x]

这是链式索引。我不建议这样做。

@cs95 你会推荐什么？

如果您想完成这项工作，请调用 df.columns.get_loc 以获取日期列的整数索引位置（循环外），然后在内部使用单个 iloc 索引调用。

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

df row 单元格

问：

答1:

答2:

答3:

答4:

答5:

答6:

答7:

答8:

答9:

答10:

答11:

发表回复取消回复

问：

答1:

答2:

答3:

答4:

答5:

答6:

答7:

答8:

答9:

答10:

答11:

相关文章

发表回复 取消回复

发表回复取消回复