我如何创建测试和训练样本从一个数据框架与熊猫?

我有一个数据框架形式的相当大的数据集，我想知道我如何能够将数据框架分成两个随机样本(80%和20%)进行训练和测试。

谢谢!

当前回答

如果你希望有一个数据帧和两个数据帧(不是numpy数组)，这应该可以做到:

def split_data(df, train_perc = 0.8):

   df['train'] = np.random.rand(len(df)) < train_perc

   train = df[df.train == 1]

   test = df[df.train == 0]

   split_data ={'train': train, 'test': test}

   return split_data

2015-07-19 21:29:26

其他回答

我会使用numpy的randn:

In [11]: df = pd.DataFrame(np.random.randn(100, 2))

In [12]: msk = np.random.rand(len(df)) < 0.8

In [13]: train = df[msk]

In [14]: test = df[~msk]

为了证明这是有效的:

In [15]: len(test)
Out[15]: 21

In [16]: len(train)
Out[16]: 79

2014-06-10 17:29:25

可以使用~(波浪符)排除使用df.sample()采样的行，让pandas单独处理索引的采样和过滤，以获得两个集。

train_df = df.sample(frac=0.8, random_state=100)
test_df = df[~df.index.isin(train_df.index)]

2020-01-26 11:54:43

如果你需要根据你的数据集中的lables列来分割你的数据，你可以使用这个:

def split_to_train_test(df, label_column, train_frac=0.8):
    train_df, test_df = pd.DataFrame(), pd.DataFrame()
    labels = df[label_column].unique()
    for lbl in labels:
        lbl_df = df[df[label_column] == lbl]
        lbl_train_df = lbl_df.sample(frac=train_frac)
        lbl_test_df = lbl_df.drop(lbl_train_df.index)
        print '\n%s:\n---------\ntotal:%d\ntrain_df:%d\ntest_df:%d' % (lbl, len(lbl_df), len(lbl_train_df), len(lbl_test_df))
        train_df = train_df.append(lbl_train_df)
        test_df = test_df.append(lbl_test_df)

    return train_df, test_df

并使用它:

train, test = split_to_train_test(data, 'class', 0.7)

如果你想控制分割随机性或使用一些全局随机种子，你也可以传递random_state。

2017-11-15 09:41:06

我认为你还需要一个副本，而不是一个切片的数据框架，如果你想以后添加列。

msk = np.random.rand(len(df)) < 0.8
train, test = df[msk].copy(deep = True), df[~msk].copy(deep = True)

2015-08-04 04:16:06

示例方法选择数据的一部分，您可以先通过传递种子值来打乱数据。

train = df.sample(frac=0.8, random_state=42)

对于测试集，您可以删除通过train DF索引的行，然后重置新DF的索引。

test = df.drop(train_data.index).reset_index(drop=True)

2022-11-02 06:31:20

我如何创建测试和训练样本从一个数据框架与熊猫?

推荐文章

最新文章

标签