规范化数据框架的列

我有一个熊猫的数据框架，其中每一列都有不同的值范围。例如:

df:

A     B   C
1000  10  0.5
765   5   0.35
800   7   0.09

知道我如何规范化这个数据框架的列，其中每个值都在0到1之间吗?

我想要的输出是:

A     B    C
1     1    1
0.765 0.5  0.7
0.8   0.7  0.18(which is 0.09/0.5)

当前回答

你可以在一行中完成

DF_test = DF_test.sub(DF_test.mean(axis=0), axis=1)/DF_test.mean(axis=0)

它取每一列的平均值，然后从每一行中减去它(平均值)(特定列的平均值仅从该行中减去)，然后仅除以平均值。最后，我们得到的是规范化的数据集。

2019-04-12 06:13:35

其他回答

如果你的数据是正倾斜的，最好的归一化方法是使用对数变换:

df = np.log10(df)

2020-10-12 10:43:38

睡魔和普拉文给出的解决方案很好。唯一的问题是，如果你在数据帧的其他列中有分类变量，这种方法将需要一些调整。

我对这类问题的解决方案如下:

 from sklearn import preprocesing
 x = pd.concat([df.Numerical1, df.Numerical2,df.Numerical3])
 min_max_scaler = preprocessing.MinMaxScaler()
 x_scaled = min_max_scaler.fit_transform(x)
 x_new = pd.DataFrame(x_scaled)
 df = pd.concat([df.Categoricals,x_new])

2017-11-26 20:09:28

我认为在熊猫身上更好的方法是

df = df/df.max().astype(np.float64)

如果在你的数据帧中出现负数，你应该用负数代替

df = df/df.loc[df.abs().idxmax()].astype(np.float64)

2014-10-17 13:58:41

你可以在一行中完成

DF_test = DF_test.sub(DF_test.mean(axis=0), axis=1)/DF_test.mean(axis=0)

它取每一列的平均值，然后从每一行中减去它(平均值)(特定列的平均值仅从该行中减去)，然后仅除以平均值。最后，我们得到的是规范化的数据集。

2019-04-12 06:13:35

基于这篇文章:https://stats.stackexchange.com/questions/70801/how-to-normalize-data-to-0-1-range

您可以执行以下操作:

def normalize(df):
    result = df.copy()
    for feature_name in df.columns:
        max_value = df[feature_name].max()
        min_value = df[feature_name].min()
        result[feature_name] = (df[feature_name] - min_value) / (max_value - min_value)
    return result

你不需要一直担心你的价值观是积极的还是消极的。这些值应该很好地分布在0和1之间。

2015-04-15 13:25:06

规范化数据框架的列

推荐文章

最新文章

标签