标记数据错误

我试图使用熊猫操作.csv文件，但我得到这个错误:

pandas.parser.CParserError:标记数据错误。C错误:第3行有2个字段，见12

我试着读过熊猫的文件，但一无所获。

我的代码很简单:

path = 'GOOG Key Ratios.csv'
#print(open(path).read())
data = pd.read_csv(path)

我该如何解决这个问题?我应该使用csv模块还是其他语言?

文件来自晨星公司

当前回答

我遇到了这个问题，我试图在不传递列名的情况下读取CSV。

df = pd.read_csv(filename, header=None)

我事先在一个列表中指定了列名，然后将它们传递到名称中，它立即解决了这个问题。如果您没有设置列名，您可以创建与数据中可能存在的最大列数量一样多的占位符名称。

col_names = ["col1", "col2", "col3", ...]
df = pd.read_csv(filename, names=col_names)

2019-01-08 18:57:22

其他回答

在我的例子中，问题是熊猫版本，所以熊猫1.3.5就像一个魅力。

2022-10-29 15:06:46

大多数有用的答案已经提到了，但是我建议将pandas数据框架保存为parquet文件。Parquet文件没有这个问题，同时它们是内存高效的。

2019-06-11 09:47:59

据我所知，在查看了您的文件后，问题是您试图加载的csv文件有多个表。有空行，或者包含表标题的行。试着看看这个Stackoverflow的答案。它展示了如何以编程方式实现这一点。

另一种动态方法是使用csv模块，一次读取每一行，并进行健全检查/正则表达式，以推断该行是否为(title/header/values/blank)。使用这种方法还有一个优点，你可以根据需要在python对象中分割/追加/收集数据。

最简单的方法是在手动选择表格并将其复制到剪贴板后使用pandas函数pd.read_clipboard()，以防您可以在excel或其他工具中打开csv。

无关:

此外，与您的问题无关，但因为没有人提到这一点:我在从UCI加载一些数据集(如seeds_dataset.txt)时遇到了同样的问题。在我的例子中，发生错误是因为一些分隔符的空格比真正的制表符多。例如，请参见下面的第3行

14.38   14.21   0.8951  5.386   3.312   2.462   4.956   1
14.69   14.49   0.8799  5.563   3.259   3.586   5.219   1
14.11   14.1    0.8911  5.42    3.302   2.7     5       1

因此，在分隔符模式中使用\t+而不是\t。

data = pd.read_csv(path, sep='\t+`, header=None)

2019-11-03 09:35:50

虽然这个问题并非如此，但压缩数据也可能出现此错误。显式地设置kwarg压缩值解决了我的问题。

result = pandas.read_csv(data_source, compression='gzip')

2016-10-03 15:45:19

我也遇到过同样的问题。在同一个源文件上使用pd.read_table()似乎可以工作。我找不到原因，但对我的情况来说，这是一个有用的变通办法。也许有更博学的人能解释清楚为什么它能起作用。

编辑: 我发现，当文件中的某些文本与实际数据的格式不一致时，这个错误就会出现。这通常是页眉或页脚信息(大于一行，所以skip_header不起作用)，它们不会被与实际数据相同数量的逗号分隔(当使用read_csv时)。使用read_table使用制表符作为分隔符，可以避免用户当前错误，但引入其他错误。

我通常通过将额外的数据读入文件，然后使用read_csv()方法来解决这个问题。

具体的解决方案可能因您的实际文件而异，但这种方法在一些情况下对我来说是有效的

2014-06-30 11:46:21

标记数据错误

推荐文章

最新文章

标签