我必须在Python中做什么来找出字符串的编码?
当前回答
注意,在Python 3中,这样说并不公平:
字符串是UTFx的任何x(例如。use UTF8) str是Unicode 字符串是Unicode字符的有序集合
Python的str类型(通常)是Unicode码位序列,其中一些映射到字符。
即使在Python 3上,回答这个问题也不像您想象的那么简单。
测试ascii兼容字符串的一个明显的方法是尝试编码:
"Hello there!".encode("ascii")
#>>> b'Hello there!'
"Hello there... ☃!".encode("ascii")
#>>> Traceback (most recent call last):
#>>> File "", line 4, in <module>
#>>> UnicodeEncodeError: 'ascii' codec can't encode character '\u2603' in position 15: ordinal not in range(128)
这个错误区分了不同的情况。
在Python 3中,甚至有一些字符串包含无效的Unicode代码点:
"Hello there!".encode("utf8")
#>>> b'Hello there!'
"\udcc3".encode("utf8")
#>>> Traceback (most recent call last):
#>>> File "", line 19, in <module>
#>>> UnicodeEncodeError: 'utf-8' codec can't encode character '\udcc3' in position 0: surrogates not allowed
用同样的方法来区分它们。
其他回答
注意,在Python 3中,这样说并不公平:
字符串是UTFx的任何x(例如。use UTF8) str是Unicode 字符串是Unicode字符的有序集合
Python的str类型(通常)是Unicode码位序列,其中一些映射到字符。
即使在Python 3上,回答这个问题也不像您想象的那么简单。
测试ascii兼容字符串的一个明显的方法是尝试编码:
"Hello there!".encode("ascii")
#>>> b'Hello there!'
"Hello there... ☃!".encode("ascii")
#>>> Traceback (most recent call last):
#>>> File "", line 4, in <module>
#>>> UnicodeEncodeError: 'ascii' codec can't encode character '\u2603' in position 15: ordinal not in range(128)
这个错误区分了不同的情况。
在Python 3中,甚至有一些字符串包含无效的Unicode代码点:
"Hello there!".encode("utf8")
#>>> b'Hello there!'
"\udcc3".encode("utf8")
#>>> Traceback (most recent call last):
#>>> File "", line 19, in <module>
#>>> UnicodeEncodeError: 'utf-8' codec can't encode character '\udcc3' in position 0: surrogates not allowed
用同样的方法来区分它们。
在python中3。x所有字符串都是Unicode字符的序列。使用isinstance检查STR(默认为unicode字符串)就足够了。
isinstance(x, str)
关于python 2.x, 大多数人似乎都在使用带有两次检查的if语句。一个用于STR,一个用于unicode。
如果你想检查你是否有一个'string-like'的对象,并且只有一个语句,你可以这样做:
isinstance(x, basestring)
对于py2/py3兼容性,只需使用
进口六 如果isinstance(obj, six.text_type)
您可以使用通用编码检测器,但请注意,它只会给您最好的猜测,而不是实际的编码,因为不可能知道字符串“abc”的编码。您将需要在其他地方获取编码信息,例如HTTP协议使用内容类型报头。
use:
import six
if isinstance(obj, six.text_type)
在六个库中,它被表示为:
if PY3:
string_types = str,
else:
string_types = basestring,