如何从JSON获得字符串对象而不是Unicode

我使用Python 2从ASCII编码的文本文件解析JSON。

当用json或simplejson加载这些文件时，我的所有字符串值都转换为Unicode对象而不是字符串对象。问题是，我必须将数据与一些只接受字符串对象的库一起使用。我不能更改库也不能更新它们。

是否有可能获得字符串对象而不是Unicode对象?

例子

>>> import json
>>> original_list = ['a', 'b']
>>> json_list = json.dumps(original_list)
>>> json_list
'["a", "b"]'
>>> new_list = json.loads(json_list)
>>> new_list
[u'a', u'b']  # I want these to be of type `str`, not `unicode`

(2017年一个简单而干净的解决方案是使用最新版本的Python——即Python 3和更高版本。)

当前回答

问题在于simplejson和json是两个不同的模块，至少在处理Unicode的方式上是这样。你在Python 2.6+中有json，它给你Unicode值，而simplejson返回字符串对象。

在您的环境中尝试easy_installing -ing simplejson，看看是否有效。对我来说确实如此。

2010-10-19 19:48:34

其他回答

只需使用pickle而不是json来转储和加载，如下所示:

    import json
    import pickle

    d = { 'field1': 'value1', 'field2': 2, }

    json.dump(d,open("testjson.txt","w"))

    print json.load(open("testjson.txt","r"))

    pickle.dump(d,open("testpickle.txt","w"))

    print pickle.load(open("testpickle.txt","r"))

它产生的输出是(字符串和整数被正确处理):

    {u'field2': 2, u'field1': u'value1'}
    {'field2': 2, 'field1': 'value1'}

2014-04-27 20:15:01

我也遇到了同样的问题。

因为我需要将所有数据传递给PyGTK，所以Unicode字符串对我来说也不是很有用。这是另一种递归转换方法。实际上，类型安全的JSON转换也需要它——JSON .dump()会放弃任何非字面量，比如Python对象。但是它不转换字典索引。

# removes any objects, turns Unicode back into str
def filter_data(obj):
        if type(obj) in (int, float, str, bool):
                return obj
        elif type(obj) == unicode:
                return str(obj)
        elif type(obj) in (list, tuple, set):
                obj = list(obj)
                for i,v in enumerate(obj):
                        obj[i] = filter_data(v)
        elif type(obj) == dict:
                for i,v in obj.iteritems():
                        obj[i] = filter_data(v)
        else:
                print "invalid object in data, converting to string"
                obj = str(obj)
        return obj

2010-07-05 18:22:51

你可以为json使用object_hook参数。要传入转换器的负载。你不需要在事后进行转换。json模块将始终只传递object_hook字典，并且它将递归地传递嵌套字典，因此您不必自己递归到嵌套字典。我不认为我会像Wells显示的那样将Unicode字符串转换为数字。如果它是Unicode字符串，它在JSON文件中被引用为字符串，所以它应该是字符串(或者文件是坏的)。

另外，我会尽量避免在unicode对象上做类似str(val)的事情。您应该使用带有有效编码的value.encode(encoding)，这取决于外部库的期望。

举个例子:

def _decode_list(data):
    rv = []
    for item in data:
        if isinstance(item, unicode):
            item = item.encode('utf-8')
        elif isinstance(item, list):
            item = _decode_list(item)
        elif isinstance(item, dict):
            item = _decode_dict(item)
        rv.append(item)
    return rv

def _decode_dict(data):
    rv = {}
    for key, value in data.iteritems():
        if isinstance(key, unicode):
            key = key.encode('utf-8')
        if isinstance(value, unicode):
            value = value.encode('utf-8')
        elif isinstance(value, list):
            value = _decode_list(value)
        elif isinstance(value, dict):
            value = _decode_dict(value)
        rv[key] = value
    return rv

obj = json.loads(s, object_hook=_decode_dict)

2011-07-09 08:25:41

我有一个JSON字典作为字符串。键和值是Unicode对象，如下例所示:

myStringDict = "{u'key':u'value'}"

我可以使用上面建议的byteify函数，使用ast.literal_eval(myStringDict)将字符串转换为dict对象。

2015-01-30 10:12:14

看看这个类似问题的答案，上面说

前缀u表示你有一个Unicode字符串。当你真正使用字符串时，它不会出现在你的数据中。不要被打印出来的结果所迷惑。

例如，试试这个:

print mail_accounts[0]["i"]

你不会看到u。

2017-07-04 13:32:45

如何从JSON获得字符串对象而不是Unicode

推荐文章

最新文章

标签