如何制作一个伟大的R可重复示例

在与同事讨论绩效、教学、发送错误报告或搜索邮件列表和Stack Overflow上的指导时，经常会询问一个可重复的示例，并且总是很有用。

你有什么建议来创建一个优秀的例子？如何以文本格式粘贴r中的数据结构？您还应包括哪些其他信息？

除了使用dput（）、dump（）或structure（）之外，还有其他技巧吗？什么时候应该包含library（）或require（）语句？除了c、df、data等之外，应该避免哪些保留字。？

如何做出一个伟大的、可重复的例子？

当前回答

（这是我如何写一个可复制的例子的建议。我试图让它简短而甜蜜）。

如何编写可复制的示例

如果你提供了一个可重复的例子，你最有可能在R问题上得到很好的帮助。一个可复制的示例允许其他人通过复制和粘贴R代码来重新创建您的问题。

为了使示例具有可复制性，您需要包括四个方面：所需的包、数据、代码和R环境的描述。

包应该在脚本的顶部加载，因此很容易看看示例需要哪些。在电子邮件或堆栈溢出问题中包含数据的最简单方法是使用dput（）生成R代码以重新创建它。例如，要在R中重新创建mtcars数据集，我将执行以下步骤：在R中运行dput（mtcars）复制输出在我的可复制脚本中，键入mtcars<-然后粘贴。花一点时间确保您的代码易于其他人使用内容如下：确保使用了空格，变量名称简洁，但是提供有用信息的使用注释指出问题所在尽最大努力删除与问题无关的所有内容。代码越短，越容易理解。在代码的注释中包含sessionInfo（）的输出。这总结了您的R环境，并使其易于检查您是否使用了过时的包裹

您可以通过启动一个新的R会话并粘贴脚本来检查是否确实制作了一个可复制的示例。

在将所有代码放入电子邮件之前，请考虑将其放在Gistgithub上。它会给你的代码提供很好的语法高亮显示，你不必担心任何东西会被电子邮件系统破坏。

2011-05-11 13:57:51

其他回答

请不要像这样粘贴控制台输出：

If I have a matrix x as follows:
> x <- matrix(1:8, nrow=4, ncol=2,
            dimnames=list(c("A","B","C","D"), c("x","y")))
> x
  x y
A 1 5
B 2 6
C 3 7
D 4 8
>

How can I turn it into a dataframe with 8 rows, and three
columns named `row`, `col`, and `value`, which have the
dimension names as the values of `row` and `col`, like this:
> x.df
    row col value
1    A   x      1
...
(To which the answer might be:
> x.df <- reshape(data.frame(row=rownames(x), x), direction="long",
+                varying=list(colnames(x)), times=colnames(x),
+                v.names="value", timevar="col", idvar="row")
)

我们不能直接复制粘贴它。

要使问题和答案正确再现，请在发布前删除+&>，并在输出和评论中添加#，如下所示：

#If I have a matrix x as follows:
x <- matrix(1:8, nrow=4, ncol=2,
            dimnames=list(c("A","B","C","D"), c("x","y")))
x
#  x y
#A 1 5
#B 2 6
#C 3 7
#D 4 8

# How can I turn it into a dataframe with 8 rows, and three
# columns named `row`, `col`, and `value`, which have the
# dimension names as the values of `row` and `col`, like this:

#x.df
#    row col value
#1    A   x      1
#...
#To which the answer might be:

x.df <- reshape(data.frame(row=rownames(x), x), direction="long",
                varying=list(colnames(x)), times=colnames(x),
                v.names="value", timevar="col", idvar="row")

还有一件事，如果您使用了某个包中的任何函数，请提及该库。

2016-07-22 10:01:36

使用testthat包中的函数来显示预期发生的情况是一个好主意。因此，其他人可以更改您的代码，直到它运行无误。这减轻了那些想帮助你的人的负担，因为这意味着他们不必解码你的文本描述。例如

library(testthat)
# code defining x and y
if (y >= 10) {
    expect_equal(x, 1.23)
} else {
    expect_equal(x, 3.21)
}

这比“我认为如果y等于或超过10，x将为1.23，否则为3.21，但我都没有得到结果”更清楚。即使在这个愚蠢的例子中，我认为代码比单词更清楚。使用testthat可以让你的助手专注于代码，这节省了时间，并且可以让他们在发布问题之前知道他们已经解决了你的问题

2017-04-04 21:08:35

就我个人而言，我更喜欢“一”行。大致如下：

my.df <- data.frame(col1 = sample(c(1,2), 10, replace = TRUE),
        col2 = as.factor(sample(10)), col3 = letters[1:10],
        col4 = sample(c(TRUE, FALSE), 10, replace = TRUE))
my.list <- list(list1 = my.df, list2 = my.df[3], list3 = letters)

数据结构应该模仿作者问题的想法，而不是准确的逐字结构。当变量不覆盖我自己的变量或函数（如df）时，我真的很感激。

或者，你可以切几个角，指向一个预先存在的数据集，比如：

library(vegan)
data(varespec)
ord <- metaMDS(varespec)

不要忘记提及您可能使用的任何特殊软件包。

如果你想在更大的物体上演示一些东西，你可以尝试

my.df2 <- data.frame(a = sample(10e6), b = sample(letters, 10e6, replace = TRUE))

如果通过光栅包处理空间数据，则可以生成一些随机数据。在包装小插曲中可以找到很多例子，但这里有一个小亮点。

library(raster)
r1 <- r2 <- r3 <- raster(nrow=10, ncol=10)
values(r1) <- runif(ncell(r1))
values(r2) <- runif(ncell(r2))
values(r3) <- runif(ncell(r3))
s <- stack(r1, r2, r3)

如果您需要一些在sp中实现的空间对象，可以通过“空间”包中的外部文件（如ESRI shapefile）获取一些数据集（请参见任务视图中的空间视图）。

library(rgdal)
ogrDrivers()
dsn <- system.file("vectors", package = "rgdal")[1]
ogrListLayers(dsn)
ogrInfo(dsn=dsn, layer="cities")
cities <- readOGR(dsn=dsn, layer="cities")

2011-05-11 11:22:15

除了我发现非常有趣的上述所有答案之外，有时也很容易，正如这里所讨论的：如何制作一个最小的可重复示例来获得R的帮助

有许多方法可以创建随机向量创建一个100个数字的向量，其中R中的随机值舍入为2个小数或R中的一个随机矩阵：

mydf1<- matrix(rnorm(20),nrow=20,ncol=5)

请注意，由于维度等各种原因，有时很难共享给定的数据。然而，上述所有答案都很好，在想要制作可复制的数据示例时，思考和使用这些答案非常重要。但请注意，为了使数据与原始数据一样具有代表性（以防OP无法共享原始数据），最好在数据示例中添加一些信息（如果我们将数据称为mydf1）

class(mydf1)
# this shows the type of the data you have
dim(mydf1)
# this shows the dimension of your data

此外，应该知道可以是数据结构的数据的类型、长度和属性

#found based on the following
typeof(mydf1), what it is.
length(mydf1), how many elements it contains.
attributes(mydf1), additional arbitrary metadata.

#If you cannot share your original data, you can str it and give an idea about the structure of your data
head(str(mydf1))

2016-04-20 10:50:39

基本上，一个最小的可重复示例（MRE）应该能够让其他人在他们的机器上准确地再现您的问题。

请不要发布数据、代码或控制台输出的图像！

tl；博士

MRE包括以下项目：

演示问题所需的最小数据集再现问题所需的最小可运行代码，可在给定数据集上运行有关所用库、R版本和运行该库的操作系统的所有必要信息，可能是sessionInfo（）在随机进程的情况下，一个种子（set by set.seed（））使其他人能够复制与您完全相同的结果

有关良好MRE的示例，请参阅帮助页底部有关您正在使用的函数的“示例”部分。只需键入例如help（mean）或short？意味着进入你的R控制台。

提供最小数据集

通常，共享巨大的数据集是不必要的，而且可能会阻碍其他人阅读您的问题。因此，最好使用内置数据集或创建一个类似于原始数据的小“玩具”示例，这实际上是指最小值。如果出于某种原因，您确实需要共享原始数据，那么您应该使用一种方法，例如dput（），允许其他人获得数据的精确副本。

内置数据集

您可以使用内置数据集之一。使用data（）可以看到内置数据集的全面列表。每个数据集都有简短的描述，可以获得更多信息，例如：？虹膜，用于R附带的“虹膜”数据集。安装的软件包可能包含其他数据集。

创建示例数据集

初步说明：有时您可能需要特殊格式（例如类），例如因子、日期或时间序列。对于这些，请使用以下函数：as.factor、as.Date、as.xts…例如：

d <- as.Date("2020-12-30")

哪里

class(d)
# [1] "Date"

矢量

x <- rnorm(10)  ## random vector normal distributed
x <- runif(10)  ## random vector uniformly distributed    
x <- sample(1:100, 10)  ## 10 random draws out of 1, 2, ..., 100    
x <- sample(LETTERS, 10)  ## 10 random draws out of built-in latin alphabet

矩阵

m <- matrix(1:12, 3, 4, dimnames=list(LETTERS[1:3], LETTERS[1:4]))
m
#   A B C  D
# A 1 4 7 10
# B 2 5 8 11
# C 3 6 9 12

数据帧

set.seed(42)  ## for sake of reproducibility
n <- 6
dat <- data.frame(id=1:n, 
                  date=seq.Date(as.Date("2020-12-26"), as.Date("2020-12-31"), "day"),
                  group=rep(LETTERS[1:2], n/2),
                  age=sample(18:30, n, replace=TRUE),
                  type=factor(paste("type", 1:n)),
                  x=rnorm(n))
dat
#   id       date group age   type         x
# 1  1 2020-12-26     A  27 type 1 0.0356312
# 2  2 2020-12-27     B  19 type 2 1.3149588
# 3  3 2020-12-28     A  20 type 3 0.9781675
# 4  4 2020-12-29     B  26 type 4 0.8817912
# 5  5 2020-12-30     A  26 type 5 0.4822047
# 6  6 2020-12-31     B  28 type 6 0.9657529

注意：虽然它被广泛使用，但最好不要将数据帧命名为df，因为df（）是F分布的密度（即x点处曲线的高度）的R函数，您可能会与它发生冲突。

复制原始数据

如果您有特定的原因，或者数据很难从中构建示例，那么可以提供原始数据的一小部分，最好使用dput。

为什么使用dput（）？

dput抛出在控制台上准确再现数据所需的所有信息。您可以简单地复制输出并将其粘贴到问题中。

调用dat（从上面）产生的输出仍然缺少关于变量类和其他特性的信息，如果您在问题中共享它。此外，type列中的空格使我们很难使用它。即使我们开始使用数据，我们也无法正确获取数据的重要特性。

  id       date group age   type         x
1  1 2020-12-26     A  27 type 1 0.0356312
2  2 2020-12-27     B  19 type 2 1.3149588
3  3 2020-12-28     A  20 type 3 0.9781675

子集数据

要共享子集，请使用head（）、subset（）或索引iris[1:4，]。然后将其包装到dput（）中，以给其他人一些可以立即放入R中的东西。实例

dput(iris[1:4, ]) # first four rows of the iris data set

要在问题中共享的控制台输出：

structure(list(Sepal.Length = c(5.1, 4.9, 4.7, 4.6), Sepal.Width = c(3.5, 
3, 3.2, 3.1), Petal.Length = c(1.4, 1.4, 1.3, 1.5), Petal.Width = c(0.2, 
0.2, 0.2, 0.2), Species = structure(c(1L, 1L, 1L, 1L), .Label = c("setosa", 
"versicolor", "virginica"), class = "factor")), row.names = c(NA, 
4L), class = "data.frame")

使用dput时，您可能还希望只包含相关列，例如dput（mtcars[1:3，c（2，5，6）]）

注意：如果数据帧具有多个级别的因子，则dput输出可能会很难处理，因为它仍然会列出所有可能的因子级别，即使它们不在数据的子集中。要解决此问题，可以使用droplevels（）函数。注意下面的物种是一个只有一个等级的因素，例如dput（下降等级（虹膜[1:4，]））。dput的另一个警告是，它不适用于键控data.table对象或来自tidyverse的分组tbl_df（class grouped_df）。在这些情况下，您可以在共享之前转换回常规数据帧dput（如.data.frame（my_data））。

生成最小代码

结合最少的数据（见上文），您的代码应该通过简单的复制和粘贴在另一台机器上准确地再现问题。

这应该是容易的部分，但往往不是。您不应该做的事情：

示出了各种数据转换；确保提供的数据已经是正确的格式（当然，除非这是问题所在）复制粘贴在某个地方出现错误的整个脚本。尝试找出导致错误的确切行。通常情况下，你会发现问题出在自己身上。

您应该做什么：

如果使用任何包，请添加使用的包（使用library（））在新的R会话中测试运行代码，以确保代码可运行。人们应该能够在控制台中复制粘贴您的数据和代码，并获得与您相同的效果。如果打开连接或创建文件，请添加一些代码以关闭连接或删除文件（使用unlink（））如果更改选项，请确保代码中包含一条语句，以将其还原为原始选项。（例如op<-par（mfrow=c（1,2））。。。一些代码。。。par（操作））

提供必要信息

在大多数情况下，只有R版本和操作系统就足够了。当包发生冲突时，提供sessionInfo（）的输出确实会有所帮助。当谈到与其他应用程序的连接（无论是通过ODBC还是其他任何方式）时，还应提供这些应用程序的版本号，如果可能，还应包括有关设置的必要信息。

如果您在R Studio中运行R，使用rstudioapi:：versionInfo（）可以帮助报告您的RStudio版本。

如果您对特定的包有问题，您可能希望通过提供packageVersion（“包的名称”）的输出来提供包版本。

Seed

使用set.seed（）可以指定seed1，即特定状态，R的随机数生成器是固定的。这使得随机函数（如sample（）、rnorm（）、runif（）和其他许多函数）可以始终返回相同的结果，例如：

set.seed(42)
rnorm(3)
# [1]  1.3709584 -0.5646982  0.3631284

set.seed(42)
rnorm(3)
# [1]  1.3709584 -0.5646982  0.3631284

1注意：在R>3.6.0和以前的版本之间，set.seed（）的输出不同。指定您在随机过程中使用的R版本，如果您在回答旧问题时得到的结果略有不同，请不要感到惊讶。为了在这种情况下获得相同的结果，可以在set.seed（）之前使用RNGversion（）-函数（例如：RNGversion“3.5.2”）。

2011-05-11 11:40:18

如何制作一个伟大的R可重复示例

推荐文章

最新文章

标签