如何找到统计模式?

在R中，mean()和median()是标准函数，它们执行您所期望的功能。Mode()告诉您对象的内部存储模式，而不是参数中出现次数最多的值。但是是否存在一个标准库函数来实现向量(或列表)的统计模式?

当前回答

还有一个解决方案，适用于数字和字符/因子数据:

Mode <- function(x) {
  ux <- unique(x)
  ux[which.max(tabulate(match(x, ux)))]
}

在我的小机器上，它可以在大约半秒内生成并找到一个10m整数向量的模式。

如果您的数据集可能有多种模式，上述解决方案采用与which相同的方法。Max，并返回模式集中第一个出现的值。要返回所有模式，使用这个变体(来自评论中的@digEmAll):

Modes <- function(x) {
  ux <- unique(x)
  tab <- tabulate(match(x, ux))
  ux[tab == max(tab)]
}

2011-11-18 21:33:10

其他回答

还有一个解决方案，适用于数字和字符/因子数据:

Mode <- function(x) {
  ux <- unique(x)
  ux[which.max(tabulate(match(x, ux)))]
}

在我的小机器上，它可以在大约半秒内生成并找到一个10m整数向量的模式。

Modes <- function(x) {
  ux <- unique(x)
  tab <- tabulate(match(x, ux))
  ux[tab == max(tab)]
}

2011-11-18 21:33:10

在r邮件列表中发现了这个，希望对你有帮助。我也是这么想的。您将希望table()数据，排序，然后选择第一个名称。这有点粗俗，但应该有用。

names(sort(-table(x)))[1]

2010-03-30 18:19:29

这个黑客应该工作良好。给你的值以及模式的计数:

Mode <- function(x){
a = table(x) # x is a vector
return(a[which.max(a)])
}

2016-09-13 07:01:34

R有如此多的附加包，其中一些可以很好地提供数字列表/系列/向量的[统计]模式。

然而，R的标准库本身似乎没有这样一个内置的方法!解决这个问题的一种方法是使用一些像下面这样的结构(如果你经常使用…则将其转换为函数):

mySamples <- c(19, 4, 5, 7, 29, 19, 29, 13, 25, 19)
tabSmpl<-tabulate(mySamples)
SmplMode<-which(tabSmpl== max(tabSmpl))
if(sum(tabSmpl == max(tabSmpl))>1) SmplMode<-NA
> SmplMode
[1] 19

对于更大的示例列表，应该考虑使用一个临时变量max(tabSmpl)值(我不知道R会自动优化这个)

参考:参见KickStarting R课程中的“How about median and mode? 这似乎证实了(至少在写这节课的时候)R中没有模态函数(嗯…你会发现Mode()用于断言变量的类型)。

2010-03-30 18:25:50

另一个可能的解决方案:

Mode <- function(x) {
    if (is.numeric(x)) {
        x_table <- table(x)
        return(as.numeric(names(x_table)[which.max(x_table)]))
    }
}

用法:

set.seed(100)
v <- sample(x = 1:100, size = 1000000, replace = TRUE)
system.time(Mode(v))

输出:

   user  system elapsed 
   0.32    0.00    0.31

2015-12-16 02:45:39

如何找到统计模式?

推荐文章

最新文章

标签