scikit-learn中跨多列的标签编码

我试图使用scikit-learn的LabelEncoder来编码字符串标签的pandas DataFrame。由于数据帧有许多(50+)列，我想避免为每一列创建一个LabelEncoder对象;我宁愿只有一个大的LabelEncoder对象，它可以跨所有数据列工作。

将整个DataFrame扔到LabelEncoder中会产生以下错误。请记住，我在这里使用的是虚拟数据;实际上，我正在处理大约50列的字符串标记数据，所以需要一个解决方案，不引用任何列的名称。

import pandas
from sklearn import preprocessing 

df = pandas.DataFrame({
    'pets': ['cat', 'dog', 'cat', 'monkey', 'dog', 'dog'], 
    'owner': ['Champ', 'Ron', 'Brick', 'Champ', 'Veronica', 'Ron'], 
    'location': ['San_Diego', 'New_York', 'New_York', 'San_Diego', 'San_Diego', 
                 'New_York']
})

le = preprocessing.LabelEncoder()

le.fit(df)

回溯(最近一次调用): 文件“”，第1行，在文件"/Users/bbalin/anaconda/lib/python2.7/site-packages/sklearn/预处理/label.py"，第103行 y = column_or_1d(y, warn=True) 文件"/Users/bbalin/anaconda/lib/python2.7/site-packages/sklearn/utils/validation.py"，第306行，在column_or_1d中 raise ValueError("错误的输入形状{0}".format(形状)) ValueError:错误的输入形状(6,3)

对于如何解决这个问题有什么想法吗?

当前回答

下面是我一次性转换多列的解决方案，以及精确的inverse_transform

from sklearn import preprocessing
columns = ['buying','maint','lug_boot','safety','cls']  # columns names where transform is required
for X in columns:
  exec(f'le_{X} = preprocessing.LabelEncoder()')  #create label encoder with name "le_X", where X is column name
  exec(f'df.{X} = le_{X}.fit_transform(df.{X})')  #execute fit transform for column X with respective lable encoder "le_X", where X is column name
df.head()  # to display transformed results

for X in columns:
  exec(f'df.{X} = le_{X}.inverse_transform(df.{X})')  #execute inverse_transform for column X with respective lable encoder "le_X", where X is column name
df.head() # to display Inverse transformed results of df

2022-05-05 19:24:38

其他回答

我们不需要LabelEncoder。

您可以将列转换为类别，然后获取它们的代码。我使用下面的字典推导将此过程应用于每一列，并将结果包装回具有相同索引和列名的相同形状的数据框架中。

>>> pd.DataFrame({col: df[col].astype('category').cat.codes for col in df}, index=df.index)
   location  owner  pets
0         1      1     0
1         0      2     1
2         0      0     0
3         1      1     2
4         1      3     1
5         0      2     1

要创建映射字典，你可以使用字典理解式枚举类别:

>>> {col: {n: cat for n, cat in enumerate(df[col].astype('category').cat.categories)} 
     for col in df}

{'location': {0: 'New_York', 1: 'San_Diego'},
 'owner': {0: 'Brick', 1: 'Champ', 2: 'Ron', 3: 'Veronica'},
 'pets': {0: 'cat', 1: 'dog', 2: 'monkey'}}

2016-05-04 21:21:54

这是脚本

from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
col_list = df.select_dtypes(include = "object").columns
for colsn in col_list:
    df[colsn] = le.fit_transform(df[colsn].astype(str))

2022-09-27 16:18:35

主要使用@Alexander回答，但必须做一些更改-

cols_need_mapped = ['col1', 'col2']

mapper = {col: {cat: n for n, cat in enumerate(df[col].astype('category').cat.categories)} 
     for col in df[cols_need_mapped]}

for c in cols_need_mapped :
    df[c] = df[c].map(mapper[c])

然后，为了将来重用，你可以将输出保存到json文档中，当你需要它时，你可以读入并使用.map()函数，就像我上面所做的那样。

2018-07-31 19:10:31

这并没有直接回答你的问题(Naputipulu Jon和PriceHardman对此有精彩的回答)

但是，对于一些分类任务等，您可以使用

pandas.get_dummies(input_df)

这可以输入带有分类数据的数据框架，并返回带有二进制值的数据框架。变量值被编码到结果数据框架中的列名中。更多的

2016-06-24 12:26:42

你可以很容易地做到，

df.apply(LabelEncoder().fit_transform)

EDIT2:

在scikit-learn 0.20中，推荐的方法是

OneHotEncoder().fit_transform(df)

因为OneHotEncoder现在支持字符串输入。使用ColumnTransformer可以只对某些列应用OneHotEncoder。

编辑:

由于这个最初的答案是一年多前的，并获得了许多赞(包括赏金)，我可能应该进一步扩展它。

对于inverse_transform和transform，你需要做一点修改。

from collections import defaultdict
d = defaultdict(LabelEncoder)

这样，您现在将所有列LabelEncoder保留为字典。

# Encoding the variable
fit = df.apply(lambda x: d[x.name].fit_transform(x))

# Inverse the encoded
fit.apply(lambda x: d[x.name].inverse_transform(x))

# Using the dictionary to label future data
df.apply(lambda x: d[x.name].transform(x))

MOAR编辑:

使用Neuraxle的flatforeach步骤，也可以在一次对所有平坦数据使用相同的LabelEncoder:

FlattenForEach(LabelEncoder(), then_unflatten=True).fit_transform(df)

要根据数据列使用单独的LabelEncoders，或者如果只有一些数据列需要进行标签编码，而不需要其他数据列，那么使用ColumnTransformer是一种解决方案，它允许对列选择和LabelEncoder实例进行更多控制。

2015-08-11 10:21:03

scikit-learn中跨多列的标签编码

推荐文章

最新文章

标签