如何制作一个伟大的R可重复示例

在与同事讨论绩效、教学、发送错误报告或搜索邮件列表和Stack Overflow上的指导时，经常会询问一个可重复的示例，并且总是很有用。

你有什么建议来创建一个优秀的例子？如何以文本格式粘贴r中的数据结构？您还应包括哪些其他信息？

除了使用dput（）、dump（）或structure（）之外，还有其他技巧吗？什么时候应该包含library（）或require（）语句？除了c、df、data等之外，应该避免哪些保留字。？

如何做出一个伟大的、可重复的例子？

当前回答

从R.2.14开始（我猜），您可以将数据文本表示直接输入read.table：

 df <- read.table(header=TRUE, 
  text="Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1          5.1         3.5          1.4         0.2  setosa
2          4.9         3.0          1.4         0.2  setosa
3          4.7         3.2          1.3         0.2  setosa
4          4.6         3.1          1.5         0.2  setosa
5          5.0         3.6          1.4         0.2  setosa
6          5.4         3.9          1.7         0.4  setosa
")

2012-06-29 08:32:04

其他回答

到目前为止，对于再现性部分，答案显然很好。这只是为了澄清，一个可复制的例子不能也不应该是问题的唯一组成部分。别忘了解释你希望它看起来是什么样子，以及你的问题的轮廓，而不仅仅是你迄今为止试图达到的目的。代码不够；你也需要语言。

这里有一个可重复的例子来说明应该避免做什么（从一个真实的例子中得出，为了保护无辜者而改变了名字）：

以下是示例数据和我遇到问题的部分函数。

code
code
code
code
code (40 or so lines of it)

我怎样才能做到这一点？

2012-07-09 15:41:13

如果您的数据中有一个或多个因子变量，您希望使用dput（head（mydata））进行复制，请考虑向其添加droplevel，以便最小化数据集中不存在的因子级别不包含在dput输出中，以使示例最小化：

dput(droplevels(head(mydata)))

2015-01-09 15:09:51

就我个人而言，我更喜欢“一”行。大致如下：

my.df <- data.frame(col1 = sample(c(1,2), 10, replace = TRUE),
        col2 = as.factor(sample(10)), col3 = letters[1:10],
        col4 = sample(c(TRUE, FALSE), 10, replace = TRUE))
my.list <- list(list1 = my.df, list2 = my.df[3], list3 = letters)

数据结构应该模仿作者问题的想法，而不是准确的逐字结构。当变量不覆盖我自己的变量或函数（如df）时，我真的很感激。

或者，你可以切几个角，指向一个预先存在的数据集，比如：

library(vegan)
data(varespec)
ord <- metaMDS(varespec)

不要忘记提及您可能使用的任何特殊软件包。

如果你想在更大的物体上演示一些东西，你可以尝试

my.df2 <- data.frame(a = sample(10e6), b = sample(letters, 10e6, replace = TRUE))

如果通过光栅包处理空间数据，则可以生成一些随机数据。在包装小插曲中可以找到很多例子，但这里有一个小亮点。

library(raster)
r1 <- r2 <- r3 <- raster(nrow=10, ncol=10)
values(r1) <- runif(ncell(r1))
values(r2) <- runif(ncell(r2))
values(r3) <- runif(ncell(r3))
s <- stack(r1, r2, r3)

如果您需要一些在sp中实现的空间对象，可以通过“空间”包中的外部文件（如ESRI shapefile）获取一些数据集（请参见任务视图中的空间视图）。

library(rgdal)
ogrDrivers()
dsn <- system.file("vectors", package = "rgdal")[1]
ogrListLayers(dsn)
ogrInfo(dsn=dsn, layer="cities")
cities <- readOGR(dsn=dsn, layer="cities")

2011-05-11 11:22:15

从R.2.14开始（我猜），您可以将数据文本表示直接输入read.table：

 df <- read.table(header=TRUE, 
  text="Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1          5.1         3.5          1.4         0.2  setosa
2          4.9         3.0          1.4         0.2  setosa
3          4.7         3.2          1.3         0.2  setosa
4          4.6         3.1          1.5         0.2  setosa
5          5.0         3.6          1.4         0.2  setosa
6          5.4         3.9          1.7         0.4  setosa
")

2012-06-29 08:32:04

要快速创建数据的dput，只需将数据复制到剪贴板，然后在R中运行以下命令：

对于Excel中的数据：

dput(read.table("clipboard", sep="\t", header=TRUE))

对于.txt文件中的数据：

dput(read.table("clipboard", sep="", header=TRUE))

如果需要，可以更改后者中的sep。当然，只有当您的数据在剪贴板中时，这才有效。

2013-04-10 14:51:08

如何制作一个伟大的R可重复示例

推荐文章

最新文章

标签