如何制作一个伟大的R可重复示例

在与同事讨论绩效、教学、发送错误报告或搜索邮件列表和Stack Overflow上的指导时，经常会询问一个可重复的示例，并且总是很有用。

你有什么建议来创建一个优秀的例子？如何以文本格式粘贴r中的数据结构？您还应包括哪些其他信息？

除了使用dput（）、dump（）或structure（）之外，还有其他技巧吗？什么时候应该包含library（）或require（）语句？除了c、df、data等之外，应该避免哪些保留字。？

如何做出一个伟大的、可重复的例子？

当前回答

请不要像这样粘贴控制台输出：

If I have a matrix x as follows:
> x <- matrix(1:8, nrow=4, ncol=2,
            dimnames=list(c("A","B","C","D"), c("x","y")))
> x
  x y
A 1 5
B 2 6
C 3 7
D 4 8
>

How can I turn it into a dataframe with 8 rows, and three
columns named `row`, `col`, and `value`, which have the
dimension names as the values of `row` and `col`, like this:
> x.df
    row col value
1    A   x      1
...
(To which the answer might be:
> x.df <- reshape(data.frame(row=rownames(x), x), direction="long",
+                varying=list(colnames(x)), times=colnames(x),
+                v.names="value", timevar="col", idvar="row")
)

我们不能直接复制粘贴它。

要使问题和答案正确再现，请在发布前删除+&>，并在输出和评论中添加#，如下所示：

#If I have a matrix x as follows:
x <- matrix(1:8, nrow=4, ncol=2,
            dimnames=list(c("A","B","C","D"), c("x","y")))
x
#  x y
#A 1 5
#B 2 6
#C 3 7
#D 4 8

# How can I turn it into a dataframe with 8 rows, and three
# columns named `row`, `col`, and `value`, which have the
# dimension names as the values of `row` and `col`, like this:

#x.df
#    row col value
#1    A   x      1
#...
#To which the answer might be:

x.df <- reshape(data.frame(row=rownames(x), x), direction="long",
                varying=list(colnames(x)), times=colnames(x),
                v.names="value", timevar="col", idvar="row")

还有一件事，如果您使用了某个包中的任何函数，请提及该库。

2016-07-22 10:01:36

其他回答

可复制代码是获得帮助的关键。然而，许多用户可能对粘贴哪怕是一大块数据都持怀疑态度。例如，他们可能在处理敏感数据，或者在研究论文中使用收集的原始数据。

出于任何原因，我认为在公开粘贴数据之前，有一个方便的函数来“变形”我的数据会很好。SciencesPo包中的匿名化函数非常愚蠢，但对我来说，它与dput函数配合得很好。

install.packages("SciencesPo")

dt <- data.frame(
    Z = sample(LETTERS,10),
    X = sample(1:10),
    Y = sample(c("yes", "no"), 10, replace = TRUE)
)

> dt
   Z  X   Y
1  D  8  no
2  T  1 yes
3  J  7  no
4  K  6  no
5  U  2  no
6  A 10 yes
7  Y  5  no
8  M  9 yes
9  X  4 yes
10 Z  3  no

然后我将其匿名化：

> anonymize(dt)
     Z    X  Y
1   b2  2.5 c1
2   b6 -4.5 c2
3   b3  1.5 c1
4   b4  0.5 c1
5   b7 -3.5 c1
6   b1  4.5 c2
7   b9 -0.5 c1
8   b5  3.5 c2
9   b8 -1.5 c2
10 b10 -2.5 c1

在应用匿名化和dput命令之前，可能还需要对一些变量而不是整个数据进行采样。

    # Sample two variables without replacement
> anonymize(sample.df(dt,5,vars=c("Y","X")))

   Y    X
1 a1 -0.4
2 a1  0.6
3 a2 -2.4
4 a1 -1.4
5 a2  3.6

2014-11-27 02:02:02

这是一个很好的指南。

最重要的一点是：制作一小段代码，我们可以运行它来了解问题所在。一个有用的函数是dput（），但是如果您有非常大的数据，那么您可能需要制作一个小样本数据集，或者只使用前10行左右。

编辑：

此外，确保您确定了问题所在。示例不应该是一个完整的R脚本，其中包含“在第200行出现错误”。如果您使用R（我爱浏览器（））和Google中的调试工具，那么您应该能够真正确定问题所在，并重现一个同样错误的小例子。

2011-05-11 11:21:24

我正在开发wakefield包，以解决快速共享可复制数据的需求，有时dput对较小的数据集很好，但我们处理的许多问题要大得多，通过dput共享如此大的数据集是不切实际的。

关于：

wakefield允许用户共享最少的代码来再现数据。用户设置n（行数）并指定任意数量的预设变量函数（目前有70个），这些函数模拟真实的if数据（如性别、年龄、收入等）

安装：

目前（2015年6月11日），wakefield是一个GitHub包，但在编写单元测试后，最终将转到CRAN。要快速安装，请使用：

if (!require("pacman")) install.packages("pacman")
pacman::p_load_gh("trinker/wakefield")

例子：

下面是一个示例：

r_data_frame(
    n = 500,
    id,
    race,
    age,
    sex,
    hour,
    iq,
    height,
    died
)

这将产生：

    ID  Race Age    Sex     Hour  IQ Height  Died
1  001 White  33   Male 00:00:00 104     74  TRUE
2  002 White  24   Male 00:00:00  78     69 FALSE
3  003 Asian  34 Female 00:00:00 113     66  TRUE
4  004 White  22   Male 00:00:00 124     73  TRUE
5  005 White  25 Female 00:00:00  95     72  TRUE
6  006 White  26 Female 00:00:00 104     69  TRUE
7  007 Black  30 Female 00:00:00 111     71 FALSE
8  008 Black  29 Female 00:00:00 100     64  TRUE
9  009 Asian  25   Male 00:30:00 106     70 FALSE
10 010 White  27   Male 00:30:00 121     68 FALSE
.. ...   ... ...    ...      ... ...    ...   ...

2015-06-11 13:57:38

如果您有一个大数据集，无法使用dput（）轻松放入脚本，请将数据发布到pastebin并使用read.table加载它们：

d <- read.table("http://pastebin.com/raw.php?i=m1ZJuKLH")

灵感来自Henrik。

2014-01-03 19:07:03

有时，无论你如何努力，问题真的无法用较小的数据块再现，而且合成数据也不会发生（尽管展示你是如何生成没有再现问题的合成数据集是有用的，因为它排除了一些假设）。

可能需要将数据发布到web某处并提供URL。如果数据不能向公众公开，但可以共享，那么您可以通过电子邮件将其发送给感兴趣的各方（尽管这将减少需要处理的人数）。我实际上还没有看到这样做，因为无法发布数据的人对以任何形式发布数据都很敏感，但在某些情况下，如果数据在某种程度上被充分匿名/加扰/轻微损坏，人们仍然可以发布数据。

如果你不能做到这两个，那么你可能需要聘请一位顾问来解决你的问题。。。

编辑：匿名/加扰的两个有用SO问题：

如何从私有数据创建示例数据集（用无信息的占位符替换变量名称和级别）？给定一组从连续单变量分布中抽取的随机数，找到分布

2011-07-14 19:49:15

如何制作一个伟大的R可重复示例

推荐文章

最新文章

标签