如何将Unicode字符串(包含额外的字符,如£$等)转换为Python字符串?
当前回答
如果您有一个Unicode字符串,并且希望将其写入文件或其他序列化形式,则必须首先将其编码为可存储的特定表示形式。有几种常见的Unicode编码,例如UTF-16(大多数Unicode字符使用两个字节)或UTF-8(1-4字节/码点取决于字符),等等。要将该字符串转换为特定的编码,您可以使用:
>>> s= u'£10'
>>> s.encode('utf8')
'\xc2\x9c10'
>>> s.encode('utf16')
'\xff\xfe\x9c\x001\x000\x00'
可以将这个原始字节字符串写入文件。但是,请注意,当读取它时,您必须知道它是什么编码,并使用相同的编码进行解码。
当写入文件时,您可以使用codecs模块来摆脱这个手动编码/解码过程。因此,要打开一个将所有Unicode字符串编码为UTF-8的文件,请使用:
import codecs
f = codecs.open('path/to/file.txt','w','utf8')
f.write(my_unicode_string) # Stored on disk as UTF-8
请注意,使用这些文件的任何其他程序如果想读取这些文件,就必须了解文件的编码。如果你是唯一一个读/写的人,这不是问题,否则请确保你写的是一种其他使用文件的人都能理解的形式。
在Python 3中,这种形式的文件访问是默认的,内置的open函数将接受编码参数,并始终将以文本模式打开的文件转换为Unicode字符串(Python 3中的默认字符串对象)。
其他回答
下面是一个示例代码
import unicodedata
raw_text = u"here $%6757 dfgdfg"
convert_text = unicodedata.normalize('NFKD', raw_text).encode('ascii','ignore')
如果您有一个Unicode字符串,并且希望将其写入文件或其他序列化形式,则必须首先将其编码为可存储的特定表示形式。有几种常见的Unicode编码,例如UTF-16(大多数Unicode字符使用两个字节)或UTF-8(1-4字节/码点取决于字符),等等。要将该字符串转换为特定的编码,您可以使用:
>>> s= u'£10'
>>> s.encode('utf8')
'\xc2\x9c10'
>>> s.encode('utf16')
'\xff\xfe\x9c\x001\x000\x00'
可以将这个原始字节字符串写入文件。但是,请注意,当读取它时,您必须知道它是什么编码,并使用相同的编码进行解码。
当写入文件时,您可以使用codecs模块来摆脱这个手动编码/解码过程。因此,要打开一个将所有Unicode字符串编码为UTF-8的文件,请使用:
import codecs
f = codecs.open('path/to/file.txt','w','utf8')
f.write(my_unicode_string) # Stored on disk as UTF-8
请注意,使用这些文件的任何其他程序如果想读取这些文件,就必须了解文件的编码。如果你是唯一一个读/写的人,这不是问题,否则请确保你写的是一种其他使用文件的人都能理解的形式。
在Python 3中,这种形式的文件访问是默认的,内置的open函数将接受编码参数,并始终将以文本模式打开的文件转换为Unicode字符串(Python 3中的默认字符串对象)。
看到unicodedata.normalize
title = u"Klüft skräms inför på fédéral électoral große"
import unicodedata
unicodedata.normalize('NFKD', title).encode('ascii', 'ignore')
'Kluft skrams infor pa federal electoral groe'
>>> text=u'abcd'
>>> str(text)
'abcd'
如果字符串只包含ascii字符。
如果你不需要转换非ASCII字符,你可以使用encode to ASCII:
>>> a=u"aaaàçççñññ"
>>> type(a)
<type 'unicode'>
>>> a.encode('ascii','ignore')
'aaa'
>>> a.encode('ascii','replace')
'aaa???????'
>>>
推荐文章
- 如何激活蟒蛇环境
- 省略[…]意思是在一个列表里?
- 为什么我得到“'str'对象没有属性'读取'”当尝试使用' json。载入字符串?
- 不区分大小写的列表排序,没有降低结果?
- 排序后的语法(key=lambda:…)
- 在烧瓶中返回HTTP状态代码201
- 使用python创建一个简单的XML文件
- APT命令行界面式的yes/no输入?
- 如何打印出状态栏和百分比?
- 在Python中获取大文件的MD5哈希值
- 在Python格式字符串中%s是什么意思?
- 如何循环通过所有但最后一项的列表?
- python用什么方法避免默认参数为空列表?
- indexOf()和search()的区别是什么?
- ValueError: numpy。Ndarray大小改变,可能表示二进制不兼容。期望从C头得到88,从PyObject得到80