给定一个pandas数据框架,其中包含可能分散在这里和那里的NaN值:
问:如何确定哪些列包含NaN值?特别是,我能得到包含nan的列名的列表吗?
给定一个pandas数据框架,其中包含可能分散在这里和那里的NaN值:
问:如何确定哪些列包含NaN值?特别是,我能得到包含nan的列名的列表吗?
当前回答
df.isna()返回NaN值为True,其余为False。所以,做:
.any df.isna () ()
将返回True的任何列有NaN, False的其余
其他回答
在有大量列的数据集中,最好能看到有多少列包含空值,有多少列不包含空值。
print("No. of columns containing null values")
print(len(df.columns[df.isna().any()]))
print("No. of columns not containing null values")
print(len(df.columns[df.notna().all()]))
print("Total no. of columns in the dataframe")
print(len(df.columns))
例如,在我的数据框架中,它包含82列,其中19列包含至少一个空值。
此外,您还可以自动删除cols和行,这取决于哪个有更多的空值 下面是智能执行此操作的代码:
df = df.drop(df.columns[df.isna().sum()>len(df.columns)],axis = 1)
df = df.dropna(axis = 0).reset_index(drop=True)
注意:上面的代码删除了所有的空值。如果需要空值,请在此之前处理它们。
我有一个问题,我必须有许多列在屏幕上进行视觉检查,所以一个筛选并返回违规列的短列表比较
nan_cols = [i for i in df.columns if df[i].isnull().any()]
如果这对大家有帮助的话
此外,如果您想过滤掉nan值多于阈值的列,那么就使用85%
Nan_cols85 = [i for i in df.]if df[i].isnull().sum() > 0.85*len(data)]
这两种方法都有效:
df.isnull().sum()
df.isna().sum()
DataFrame方法isna()或isnull()完全相同。
注意:空字符串”被认为是False(不认为是NA)
df.isna()返回NaN值为True,其余为False。所以,做:
.any df.isna () ()
将返回True的任何列有NaN, False的其余
我使用这三行代码打印出包含至少一个空值的列名:
for column in dataframe:
if dataframe[column].isnull().any():
print('{0} has {1} null values'.format(column, dataframe[column].isnull().sum()))