如何将Unicode字符串(包含额外的字符,如£$等)转换为Python字符串?


当前回答

有一个库可以帮助解决Unicode问题,称为ftfy。让我的生活更轻松。

示例1

import ftfy
print(ftfy.fix_text('ünicode'))

output -->
ünicode

例2 - UTF-8

import ftfy
print(ftfy.fix_text('\xe2\x80\xa2'))

output -->
•

例3 - Unicode 代码点

import ftfy
print(ftfy.fix_text(u'\u2026'))

output -->
…

https://ftfy.readthedocs.io/en/latest/

PIP安装ftfy

https://pypi.org/project/ftfy/

其他回答

在我的例子中,没有答案,因为我有一个包含unicode字符的字符串变量,这里解释的编码-解码都不起作用。

如果我在终点站做

echo "no me llama mucho la atenci\u00f3n"

or

python3
>>> print("no me llama mucho la atenci\u00f3n")

输出是正确的:

output: no me llama mucho la atención

但是使用脚本加载这个字符串变量不起作用。

我的案子就是这么办的,说不定能帮到谁

string_to_convert = "no me llama mucho la atenci\u00f3n"
print(json.dumps(json.loads(r'"%s"' % string_to_convert), ensure_ascii=False))
output: no me llama mucho la atención

好吧,如果你愿意/准备切换到Python 3(由于与一些Python 2代码向后不兼容,你可能不会切换到Python 3),你不需要做任何转换;Python 3中的所有文本都用Unicode字符串表示,这也意味着不再使用u'<text>'语法。实际上,您还拥有用于表示数据的字节字符串(可能是经过编码的字符串)。

http://docs.python.org/3.1/whatsnew/3.0.html#text-vs-data-instead-of-unicode-vs-8-bit

(当然,如果你目前使用的是Python 3,那么问题很可能与你试图将文本保存到文件的方式有关。)

文件包含unicode字符串

\"message\": \"\\u0410\\u0432\\u0442\\u043e\\u0437\\u0430\\u0446\\u0438\\u044f .....\",

对我来说

 f = open("56ad62-json.log", encoding="utf-8")
 qq=f.readline() 

 print(qq)                          
 {"log":\"message\": \"\\u0410\\u0432\\u0442\\u043e\\u0440\\u0438\\u0437\\u0430\\u0446\\u0438\\u044f \\u043f\\u043e\\u043b\\u044c\\u0437\\u043e\\u0432\\u0430\\u0442\\u0435\\u043b\\u044f\"}

(qq.encode().decode("unicode-escape").encode().decode("unicode-escape")) 
# '{"log":"message": "Авторизация пользователя"}\n'

如果您有一个Unicode字符串,并且希望将其写入文件或其他序列化形式,则必须首先将其编码为可存储的特定表示形式。有几种常见的Unicode编码,例如UTF-16(大多数Unicode字符使用两个字节)或UTF-8(1-4字节/码点取决于字符),等等。要将该字符串转换为特定的编码,您可以使用:

>>> s= u'£10'
>>> s.encode('utf8')
'\xc2\x9c10'
>>> s.encode('utf16')
'\xff\xfe\x9c\x001\x000\x00'

可以将这个原始字节字符串写入文件。但是,请注意,当读取它时,您必须知道它是什么编码,并使用相同的编码进行解码。

当写入文件时,您可以使用codecs模块来摆脱这个手动编码/解码过程。因此,要打开一个将所有Unicode字符串编码为UTF-8的文件,请使用:

import codecs
f = codecs.open('path/to/file.txt','w','utf8')
f.write(my_unicode_string)  # Stored on disk as UTF-8

请注意,使用这些文件的任何其他程序如果想读取这些文件,就必须了解文件的编码。如果你是唯一一个读/写的人,这不是问题,否则请确保你写的是一种其他使用文件的人都能理解的形式。

在Python 3中,这种形式的文件访问是默认的,内置的open函数将接受编码参数,并始终将以文本模式打开的文件转换为Unicode字符串(Python 3中的默认字符串对象)。

如果你不需要转换非ASCII字符,你可以使用encode to ASCII:

>>> a=u"aaaàçççñññ"
>>> type(a)
<type 'unicode'>
>>> a.encode('ascii','ignore')
'aaa'
>>> a.encode('ascii','replace')
'aaa???????'
>>>