如何根据列值从DataFrame中选择行？

如何根据Pandas中某列的值从DataFrame中选择行？

在SQL中，我会使用：

SELECT *
FROM table
WHERE column_name = some_value

当前回答

使用DuckDB选择行的DataFrames上的SQL语句

使用DuckDB，我们可以用SQL语句以高性能的方式查询panda DataFrames。

由于问题是如何根据列值从DataFrame中选择行？，问题中的示例是一个SQL查询，这个答案在本主题中看起来很合理。

例子：

In [1]: import duckdb

In [2]: import pandas as pd

In [3]: con = duckdb.connect()

In [4]: df = pd.DataFrame({"A": range(11), "B": range(11, 22)})

In [5]: df
Out[5]:
     A   B
0    0  11
1    1  12
2    2  13
3    3  14
4    4  15
5    5  16
6    6  17
7    7  18
8    8  19
9    9  20
10  10  21

In [6]: results = con.execute("SELECT * FROM df where A > 2").df()

In [7]: results
Out[7]:
    A   B
0   3  14
1   4  15
2   5  16
3   6  17
4   7  18
5   8  19
6   9  20
7  10  21

2022-04-21 09:42:40

其他回答

如果您想重复查询数据帧，并且速度对您很重要，最好的方法是将数据帧转换为字典，然后通过这样做，您可以将查询速度提高数千倍。

my_df = df.set_index(column_name)
my_dict = my_df.to_dict('index')

制作my_dict字典后，您可以浏览：

if some_value in my_dict.keys():
   my_result = my_dict[some_value]

如果column_name中有重复值，则无法创建字典。但您可以使用：

my_result = my_df.loc[some_value]

2021-11-26 06:41:22

要选择列值等于标量some_value的行，请使用==：

df.loc[df['column_name'] == some_value]

要选择列值在可迭代的some_values中的行，请使用isin：

df.loc[df['column_name'].isin(some_values)]

将多个条件与&组合：

df.loc[(df['column_name'] >= A) & (df['column_name'] <= B)]

注意括号。由于Python的运算符优先级规则，&binding比<=和>=更紧密。因此，最后一个示例中的括号是必要的。没有括号

df['column_name'] >= A & df['column_name'] <= B

解析为

df['column_name'] >= (A & df['column_name']) <= B

这导致序列的真值是模糊错误。

要选择列值不等于some_value的行，请使用！=：

df.loc[df['column_name'] != some_value]

isin返回布尔级数，因此要选择值不在some_values中的行，请使用~：

df.loc[~df['column_name'].isin(some_values)]

例如

import pandas as pd
import numpy as np
df = pd.DataFrame({'A': 'foo bar foo bar foo bar foo foo'.split(),
                   'B': 'one one two three two two one three'.split(),
                   'C': np.arange(8), 'D': np.arange(8) * 2})
print(df)
#      A      B  C   D
# 0  foo    one  0   0
# 1  bar    one  1   2
# 2  foo    two  2   4
# 3  bar  three  3   6
# 4  foo    two  4   8
# 5  bar    two  5  10
# 6  foo    one  6  12
# 7  foo  three  7  14

print(df.loc[df['A'] == 'foo'])

产量

     A      B  C   D
0  foo    one  0   0
2  foo    two  2   4
4  foo    two  4   8
6  foo    one  6  12
7  foo  three  7  14

如果要包含多个值，请将它们放入列出（或更一般地，任何可迭代的）并使用isin：

print(df.loc[df['B'].isin(['one','three'])])

产量

     A      B  C   D
0  foo    one  0   0
1  bar    one  1   2
3  bar  three  3   6
6  foo    one  6  12
7  foo  three  7  14

但是，请注意，如果您希望多次这样做首先创建索引，然后使用df.loc：

df = df.set_index(['B'])
print(df.loc['one'])

产量

       A  C   D
B              
one  foo  0   0
one  bar  1   2
one  foo  6  12

或者，要包含索引中的多个值，请使用df.index.isin：

df.loc[df.index.isin(['one','two'])]

产量

       A  C   D
B              
one  foo  0   0
one  bar  1   2
two  foo  2   4
two  foo  4   8
two  bar  5  10
one  foo  6  12

2013-06-12 17:44:20

对于Pandas中给定值的多个列中仅选择特定列：

select col_name1, col_name2 from table where column_name = some_value.

选项位置：

df.loc[df['column_name'] == some_value, [col_name1, col_name2]]

或查询：

df.query('column_name == some_value')[[col_name1, col_name2]]

2017-12-07 10:39:50

很好的答案。只有当数据帧的大小接近百万行时，许多方法在使用df[df['col']==val]时往往需要很长时间。我希望“another_column”的所有可能值都对应于“some_column“中的特定值（在本例中是在字典中）。这起作用很快。

s=datetime.datetime.now()

my_dict={}

for i, my_key in enumerate(df['some_column'].values): 
    if i%100==0:
        print(i)  # to see the progress
    if my_key not in my_dict.keys():
        my_dict[my_key]={}
        my_dict[my_key]['values']=[df.iloc[i]['another_column']]
    else:
        my_dict[my_key]['values'].append(df.iloc[i]['another_column'])
        
e=datetime.datetime.now()

print('operation took '+str(e-s)+' seconds')```

2022-02-16 21:13:21

下面是一个简单的例子

from pandas import DataFrame

# Create data set
d = {'Revenue':[100,111,222], 
     'Cost':[333,444,555]}
df = DataFrame(d)


# mask = Return True when the value in column "Revenue" is equal to 111
mask = df['Revenue'] == 111

print mask

# Result:
# 0    False
# 1     True
# 2    False
# Name: Revenue, dtype: bool


# Select * FROM df WHERE Revenue = 111
df[mask]

# Result:
#    Cost    Revenue
# 1  444     111

2013-06-13 11:49:00

如何根据列值从DataFrame中选择行？

推荐文章

最新文章

标签