替换pandas数据框架中的列值

我试图替换一个数据框架的一列的值。列('female')只包含值'female'和'male'。

我尝试过以下方法:

w['female']['female']='1'
w['female']['male']='0'

但收到的是与之前结果完全相同的副本。

理想情况下，我希望得到类似于以下循环元素的输出。

if w['female'] =='female':
    w['female'] = '1';
else:
    w['female'] = '0';

我已经查看了gotchas文档(http://pandas.pydata.org/pandas-docs/stable/gotchas.html)，但不明白为什么什么都没有发生。

任何帮助都将不胜感激。

当前回答

pandas中还有一个叫做factorize的函数，您可以使用它自动完成这类工作。它将标签转换为数字:['male'， 'female'， 'male'] ->[0,1,0]。更多信息请看这个答案。

其他回答

如果我没理解错的话，你想要这样的东西:

w['female'] = w['female'].map({'female': 1, 'male': 0})

(这里我将值转换为数字，而不是包含数字的字符串。你可以把它们转换成“1”和“0”，如果你真的想，但我不知道为什么你想这样做。)

你的代码不能工作的原因是因为在列上使用['female'] (w['female']['female']中的第二个'female')并不意味着“选择值为'female'的行”。这意味着选择索引为“female”的行，而这些行在你的DataFrame中可能没有。

你可以使用loc编辑一个数据帧的子集:

df.loc[<row selection>, <column selection>]

在这种情况下:

w.loc[w.female != 'female', 'female'] = 0
w.loc[w.female == 'female', 'female'] = 1

pandas中还有一个叫做factorize的函数，您可以使用它自动完成这类工作。它将标签转换为数字:['male'， 'female'， 'male'] ->[0,1,0]。更多信息请看这个答案。

我认为，在答案应该指出哪种类型的对象，你得到的所有方法上面建议:它是系列或数据帧。

当你看到w。female的专栏。或者w[[2]](其中，假设2是你的列的数字)，你会得到DataFrame。在这种情况下，你可以使用DataFrame方法，比如。replace。

当你使用。loc或iloc时，你会返回Series，而Series没有。replace方法，所以你应该使用apply, map等方法。

还有一个内置函数pd。Get_dummies用于这些类型的赋值:

w['female'] = pd.get_dummies(w['female'],drop_first = True)

这为您提供了一个有两列的数据帧，每一列对应出现在w['female']中的每个值，您可以删除其中的第一列(因为您可以从剩下的一列推断它)。新列将自动命名为您替换的字符串。

如果有两个以上可能值的分类变量，这尤其有用。这个函数创建了尽可能多的虚拟变量来区分所有情况。请注意，不要将整个数据帧分配到单个列中，相反，如果w['female']可以是'male'， 'female'或'neutral'，请执行如下操作:

w = pd.concat([w, pd.get_dummies(w['female'], drop_first = True)], axis = 1])
w.drop('female', axis = 1, inplace = True)

然后你剩下两个新的列，给你'female'的虚拟编码，你去掉了带字符串的列。

推荐文章