我如何创建测试和训练样本从一个数据框架与熊猫?

我有一个数据框架形式的相当大的数据集，我想知道我如何能够将数据框架分成两个随机样本(80%和20%)进行训练和测试。

谢谢!

当前回答

Scikit Learn的train_test_split就是一个很好的例子。它将拆分numpy数组和数据框架。

from sklearn.model_selection import train_test_split

train, test = train_test_split(df, test_size=0.2)

2014-06-10 22:19:31

其他回答

如果你想把它分成训练集、测试集和验证集，你可以使用这个函数:

from sklearn.model_selection import train_test_split
import pandas as pd

def train_test_val_split(df, test_size=0.15, val_size=0.45):
    temp, test = train_test_split(df, test_size=test_size)
    total_items_count = len(df.index)
    val_length = total_items_count * val_size
    new_val_propotion = val_length / len(temp.index) 
    train, val = train_test_split(temp, test_size=new_val_propotion)
    return train, test, val

2021-06-17 13:24:27

Scikit Learn的train_test_split就是一个很好的例子。它将拆分numpy数组和数据框架。

from sklearn.model_selection import train_test_split

train, test = train_test_split(df, test_size=0.2)

2014-06-10 22:19:31

import pandas as pd

from sklearn.model_selection import train_test_split

datafile_name = 'path_to_data_file'

data = pd.read_csv(datafile_name)

target_attribute = data['column_name']

X_train, X_test, y_train, y_test = train_test_split(data, target_attribute, test_size=0.8)

2018-07-09 09:36:25

熊猫随机抽样也可以

train=df.sample(frac=0.8,random_state=200)
test=df.drop(train.index)

对于相同的random_state值，您将始终在训练集和测试集中获得相同的确切数据。这带来了一定程度的可重复性，同时还随机分离训练和测试数据。

2016-02-21 01:28:55

我会使用numpy的randn:

In [11]: df = pd.DataFrame(np.random.randn(100, 2))

In [12]: msk = np.random.rand(len(df)) < 0.8

In [13]: train = df[msk]

In [14]: test = df[~msk]

为了证明这是有效的:

In [15]: len(test)
Out[15]: 21

In [16]: len(train)
Out[16]: 79

2014-06-10 17:29:25

我如何创建测试和训练样本从一个数据框架与熊猫?

推荐文章

最新文章

标签