我使用Python-2.6 CGI脚本,但在服务器日志中发现这个错误,而做json.dumps(),

Traceback (most recent call last):
  File "/etc/mongodb/server/cgi-bin/getstats.py", line 135, in <module>
    print json.dumps(​​__get​data())
  File "/usr/lib/python2.7/json/__init__.py", line 231, in dumps
    return _default_encoder.encode(obj)
  File "/usr/lib/python2.7/json/encoder.py", line 201, in encode
    chunks = self.iterencode(o, _one_shot=True)
  File "/usr/lib/python2.7/json/encoder.py", line 264, in iterencode
    return _iterencode(o, 0)
UnicodeDecodeError: 'utf8' codec can't decode byte 0xa5 in position 0: invalid start byte

在这里,

__get data()函数返回字典{}。

在发布这个问题之前,我已经提到了这个问题。


更新

下面一行是伤害JSON编码器,

now = datetime.datetime.now()
now = datetime.datetime.strftime(now, '%Y-%m-%dT%H:%M:%S.%fZ')
print json.dumps({'current_time': now}) # this is the culprit

我有个临时解决办法

print json.dumps( {'old_time': now.encode('ISO-8859-1').strip() })

但我不确定这是正确的做法。


当前回答

我知道这并不直接适合这个问题,但当我谷歌错误消息时,我反复被引导到这个问题。

当我错误地试图像从文件中安装需求一样安装Python包时,即使用-r时,我确实得到了错误:

# wrong: leads to the error above
pip install -r my_package.whl

# correct: without -r
pip install my_package.whl

我希望这能帮助那些和我犯同样小错误的人。

其他回答

我简单地通过在read_csv()命令中定义一个不同的编解码器包来切换:

Encoding = 'unicode_escape'

Eg:

import pandas as pd
data = pd.read_csv(filename, encoding= 'unicode_escape')

字符串中编码了一个非ascii字符。

如果需要在代码中使用其他编码,可能会出现无法使用utf-8解码的情况。例如:

>>> 'my weird character \x96'.decode('utf-8')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "C:\Python27\lib\encodings\utf_8.py", line 16, in decode
    return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0x96 in position 19: invalid start byte

在这种情况下,编码是windows-1252,所以你必须做:

>>> 'my weird character \x96'.decode('windows-1252')
u'my weird character \u2013'

现在有了Unicode,就可以安全地编码为utf-8了。

如果上述方法对您不起作用,您可能需要考虑更改csv文件本身的编码。

使用Excel:

使用Excel打开csv文件 导航到文件菜单选项并单击另存为 单击“浏览”选择保存文件的位置 输入指定的文件名 选择CSV(逗号分隔)(*.csv)选项 单击“工具”下拉框,单击“Web选项” 在“Encoding”选项卡下,从“Save this document as”下拉列表中选择“Unicode (UTF-8)”选项 保存文件

使用记事本:

使用记事本打开csv文件 导航到文件>另存为选项 接下来,选择文件的位置 选择“保存为类型”选项为“所有文件”(.) 指定扩展名为.csv的文件名 从编码下拉列表中选择UTF-8选项。 单击“Save”保存文件

通过这样做,您应该能够导入csv文件而不会遇到UnicodeCodeError错误。

当我试图从sharepoint上的excel表格导入到pandas数据框架时,我遇到了同样的错误。我的解决方案是使用engine='openpyxl'。我还使用requests_negotiate_sspi来避免以纯文本形式存储密码。

import requests
from io import BytesIO
from requests_negotiate_sspi import HttpNegotiateAuth
cert = r'c:\path_to\saved_certificate.cer'
target_file_url = r'https://share.companydomain.com/sites/Sitename/folder/excel_file.xlsx'
response = requests.get(target_file_url, auth=HttpNegotiateAuth(), verify=cert)
df = pd.read_excel(BytesIO(response.content), engine='openpyxl', sheet_name='Sheet1')

这个错误是因为字典中有一些非ascii字符,它不能被编码/解码。避免此错误的一个简单方法是使用encode()函数对这样的字符串进行编码,如下所示(如果a是非ascii字符的字符串):

a.encode('utf-8').strip()