如何制作一个伟大的R可重复示例

在与同事讨论绩效、教学、发送错误报告或搜索邮件列表和Stack Overflow上的指导时，经常会询问一个可重复的示例，并且总是很有用。

你有什么建议来创建一个优秀的例子？如何以文本格式粘贴r中的数据结构？您还应包括哪些其他信息？

除了使用dput（）、dump（）或structure（）之外，还有其他技巧吗？什么时候应该包含library（）或require（）语句？除了c、df、data等之外，应该避免哪些保留字。？

如何做出一个伟大的、可重复的例子？

当前回答

使用testthat包中的函数来显示预期发生的情况是一个好主意。因此，其他人可以更改您的代码，直到它运行无误。这减轻了那些想帮助你的人的负担，因为这意味着他们不必解码你的文本描述。例如

library(testthat)
# code defining x and y
if (y >= 10) {
    expect_equal(x, 1.23)
} else {
    expect_equal(x, 3.21)
}

这比“我认为如果y等于或超过10，x将为1.23，否则为3.21，但我都没有得到结果”更清楚。即使在这个愚蠢的例子中，我认为代码比单词更清楚。使用testthat可以让你的助手专注于代码，这节省了时间，并且可以让他们在发布问题之前知道他们已经解决了你的问题

2017-04-04 21:08:35

其他回答

如果您有一个大数据集，无法使用dput（）轻松放入脚本，请将数据发布到pastebin并使用read.table加载它们：

d <- read.table("http://pastebin.com/raw.php?i=m1ZJuKLH")

灵感来自Henrik。

2014-01-03 19:07:03

有时，无论你如何努力，问题真的无法用较小的数据块再现，而且合成数据也不会发生（尽管展示你是如何生成没有再现问题的合成数据集是有用的，因为它排除了一些假设）。

可能需要将数据发布到web某处并提供URL。如果数据不能向公众公开，但可以共享，那么您可以通过电子邮件将其发送给感兴趣的各方（尽管这将减少需要处理的人数）。我实际上还没有看到这样做，因为无法发布数据的人对以任何形式发布数据都很敏感，但在某些情况下，如果数据在某种程度上被充分匿名/加扰/轻微损坏，人们仍然可以发布数据。

如果你不能做到这两个，那么你可能需要聘请一位顾问来解决你的问题。。。

编辑：匿名/加扰的两个有用SO问题：

如何从私有数据创建示例数据集（用无信息的占位符替换变量名称和级别）？给定一组从连续单变量分布中抽取的随机数，找到分布

2011-07-14 19:49:15

如果您的数据中有一个或多个因子变量，您希望使用dput（head（mydata））进行复制，请考虑向其添加droplevel，以便最小化数据集中不存在的因子级别不包含在dput输出中，以使示例最小化：

dput(droplevels(head(mydata)))

2015-01-09 15:09:51

我有一个非常简单和有效的方法来制作上面没有提到的R示例。你可以先定义你的结构。例如

mydata <- data.frame(a=character(0), b=numeric(0),  c=numeric(0), d=numeric(0))

>fix(mydata)

然后您可以手动输入数据。这对于较小的示例而不是较大的示例是有效的。

2014-02-20 09:11:37

指南：

你提出问题的主要目的应该是让读者尽可能容易地理解并在他们的系统上重现你的问题。为此：

提供输入数据提供预期输出简洁地解释您的问题如果您有超过20行的文本+代码，您可能可以回去简化尽可能简化代码，同时保留问题/错误

这确实需要一些工作，但这似乎是一种公平的权衡，因为你要求别人为你做工作。

提供数据：

内置数据集

到目前为止，最好的选择是依赖内置数据集。这使得其他人很容易解决您的问题。在R提示符下键入data（）以查看您可以使用的数据。一些经典的例子：

虹膜地铁车厢ggplot2：：钻石（外包装，但几乎每个人都有）

检查内置数据集以找到适合您问题的数据集。

如果你能用内置的数据集重新表述你的问题，你就更有可能得到好的答案（和支持）。

自行生成的数据

如果您的问题是特定于现有数据集中未表示的数据类型，请提供R代码，以生成您的问题所在的最小可能数据集。例如

set.seed(1)  # important to make random data reproducible
myData <- data.frame(a=sample(letters[1:5], 20, rep=T), b=runif(20))

试图回答我的问题的人可以复制/粘贴这两行，然后立即开始解决问题。

dput

最后，您可以使用dput将数据对象转换为R代码（例如dput（myData））。我说这是“最后的手段”，因为dput的输出通常相当笨拙，复制粘贴很烦人，并掩盖了您的其余问题。

提供预期输出：

有人曾经说过：

一张预期产出的图片值1000字--智者

如果您可以添加类似“我希望得到这个结果”的内容：

   cyl   mean.hp
1:   6 122.28571
2:   4  82.63636
3:   8 209.21429

对于你的问题，人们更容易理解你想快速做什么。如果您的预期结果很大且难以处理，那么您可能还没有充分考虑如何简化您的问题（见下一页）。

简洁地解释您的问题

主要要做的是在提问之前尽可能简化问题。在这方面，重新构建问题框架以使用内置数据集将有很大帮助。你也会经常发现，仅仅通过简化的过程，你就能回答自己的问题。

以下是一些好问题的示例：

内置数据集使用用户生成的数据

在这两种情况下，用户的问题几乎肯定与他们提供的简单示例无关。相反，他们抽象了问题的本质，并将其应用于一个简单的数据集，以提出问题。

为什么这个问题还有另一个答案？

这个答案侧重于我认为的最佳实践：使用内置数据集，并以最小的形式提供您期望的结果。最突出的答案侧重于其他方面。我不指望这个答案会上升到任何突出的位置；这只是为了让我可以在新手问题的评论中链接到它。

2015-02-12 15:24:00

如何制作一个伟大的R可重复示例

推荐文章

最新文章

标签