删除data.frame中全部或部分NAs(缺失值)的行

我想删除这个数据帧中的行:

a)在所有列中包含NAs。下面是我的示例数据帧。

             gene hsap mmul mmus rnor cfam
1 ENSG00000208234    0   NA   NA   NA   NA
2 ENSG00000199674    0   2    2    2    2
3 ENSG00000221622    0   NA   NA   NA   NA
4 ENSG00000207604    0   NA   NA   1    2
5 ENSG00000207431    0   NA   NA   NA   NA
6 ENSG00000221312    0   1    2    3    2

基本上，我想获得如下所示的数据帧。

             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0   2    2    2    2
6 ENSG00000221312    0   1    2    3    2

b)只在某些列中包含NAs，所以我也可以得到这个结果:

             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0   2    2    2    2
4 ENSG00000207604    0   NA   NA   1    2
6 ENSG00000221312    0   1    2    3    2

当前回答

我们也可以用子集函数。

finalData<-subset(data,!(is.na(data["mmul"]) | is.na(data["rnor"])))

这将只给出那些在mmul和rnor中都没有NA的行

2014-11-11 22:15:33

其他回答

使用{dplyr}包中的filter()函数和across()帮助函数是一种既通用又能产生可读性较好的代码的方法。

library(dplyr)

vars_to_check <- c("rnor", "cfam")

# Filter a specific list of columns to keep only non-missing entries

df %>% 
  filter(across(one_of(vars_to_check),
                ~ !is.na(.x)))

# Filter all the columns to exclude NA
df %>% 
  filter(across(everything(),
                ~ !is.na(.)))

# Filter only numeric columns
df %>%
  filter(across(where(is.numeric),
                ~ !is.na(.)))

类似地，在dplyr包中也有变体函数(filter_all, filter_at, filter_if)，它们完成同样的事情:

library(dplyr)

vars_to_check <- c("rnor", "cfam")

# Filter a specific list of columns to keep only non-missing entries
df %>% 
  filter_at(.vars = vars(one_of(vars_to_check)),
            ~ !is.na(.))

# Filter all the columns to exclude NA
df %>% 
  filter_all(~ !is.na(.))

# Filter only numeric columns
df %>%
  filter_if(is.numeric,
            ~ !is.na(.))

2019-04-23 17:21:42

还要检查complete。例:

> final[complete.cases(final), ]
             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0    2    2    2    2
6 ENSG00000221312    0    1    2    3    2

na。省略是更好的只是删除所有的NA。完成了。case允许部分选择，只包括数据框架的某些列:

> final[complete.cases(final[ , 5:6]),]
             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0    2    2    2    2
4 ENSG00000207604    0   NA   NA    1    2
6 ENSG00000221312    0    1    2    3    2

你的解决办法行不通。如果你坚持使用的话。不，那你就得这样做:

> final[rowSums(is.na(final[ , 5:6])) == 0, ]
             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0    2    2    2    2
4 ENSG00000207604    0   NA   NA    1    2
6 ENSG00000221312    0    1    2    3    2

但是使用complete。case更清晰，也更快。

2011-02-01 12:21:42

如果你只想删除所有列中有NAs的行，下面是解决方案:

df %>%
    filter(!if_all(everything(), ~  is.na(.)))

2022-11-27 18:11:38

尝试na.omit (your.data.frame)。至于第二个问题，试着把它作为另一个问题发布(为了清晰)。

2011-02-01 12:00:44

关于你的第一个问题，我有一个我很熟悉的代码来摆脱所有NAs。感谢@Gregor让它变得更简单。

final[!(rowSums(is.na(final))),]

对于第二个问题，代码只是之前解决方案的一个替换。

final[as.logical((rowSums(is.na(final))-5)),]

注意-5是数据中的列数。这将消除具有所有NAs的行，因为rowsum加起来等于5，并且它们在减法后变为零。这一次，作为。逻辑是必要的。

2016-02-09 17:52:51

删除data.frame中全部或部分NAs(缺失值)的行

推荐文章

最新文章

标签