导致UnicodeDecodeError: 'utf-8' codec不能解码字节

这是我的代码，

for line in open('u.item'):
# Read each line

每当我运行这段代码，它给出以下错误:

UnicodeDecodeError: 'utf-8' codec无法解码字节0xe9在位置2892:无效的延续字节

我试图解决这个问题，并在open()中添加了一个额外的参数。代码如下:

for line in open('u.item', encoding='utf-8'):
# Read each line

但是它又给出了同样的错误。那我该怎么办呢?

当前回答

如此:

open('filename', encoding='latin-1')

Or:

open('filename', encoding="ISO-8859-1")

其他回答

下面的方法对我也有用。ISO 8859-1将节省很多，主要是如果使用语音识别api。

例子:

file = open('../Resources/' + filename, 'r', encoding="ISO-8859-1")

我正在使用从Kaggle下载的数据集，同时读取这个数据集，它抛出了这个错误:

UnicodeDecodeError: 'utf-8'编解码器不能解码字节0xf1在位置 183:无效的延续字节

这就是我解决问题的方法。

import pandas as pd

pd.read_csv('top50.csv', encoding='ISO-8859-1')

这是一个在Python 3中转换CSV文件的例子:

try:
    inputReader = csv.reader(open(argv[1], encoding='ISO-8859-1'), delimiter=',',quotechar='"')
except IOError:
    pass

我一直遇到这个错误，通常解决方案不是通过encoding='utf-8'解决的，而是实际上使用engine='python'，就像这样:

import pandas as pd

file = "c:\\path\\to_my\\file.csv"
df = pd.read_csv(file, engine='python')
df

文档的链接在这里:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

用notepad++打开文件，选择“编码”或“编码”菜单来识别或从ANSI转换为UTF-8或ISO 8859-1代码页。

推荐文章