标记数据错误

我试图使用熊猫操作.csv文件，但我得到这个错误:

pandas.parser.CParserError:标记数据错误。C错误:第3行有2个字段，见12

我试着读过熊猫的文件，但一无所获。

我的代码很简单:

path = 'GOOG Key Ratios.csv'
#print(open(path).read())
data = pd.read_csv(path)

我该如何解决这个问题?我应该使用csv模块还是其他语言?

文件来自晨星公司

当前回答

您的CSV文件可能有可变的列数，read_csv从前几行推断出列数。在这种情况下有两种解决方法:

1)将CSV文件更改为具有最大列数的虚拟第一行(并指定header=[0])

2)或者使用names = list(range(0,N))，其中N是最大列数。

2017-03-31 16:29:00

其他回答

我遇到过这样的错误，一个丢失的引号。我使用映射软件，当导出以逗号分隔的文件时，它会在文本项周围加上引号。使用引号的文本(例如:“=英尺”和“=英寸”)可能会有问题。考虑下面这个例子，5英寸的测井曲线打印很差:

UWI_key,经度,纬度,备注 US42051316890000, 30.4386484, -96.4330734,“可怜的5””

用5英寸作为5英寸的简写，最终会给工作带来麻烦。Excel会简单地去掉额外的引号，但是Pandas没有上面提到的error_bad_lines=False参数就会失效。

一旦你知道了错误的本质，在导入之前，从文本编辑器(例如Sublime text 3或notepad++)中进行查找-替换可能是最简单的。

2019-04-30 02:20:32

有时单元格中有一个逗号“，”。因此，熊猫不能读它。尝试使用“;”分隔符

df = pd.read_csv(r'yourpath', delimiter=";")

2021-06-01 14:51:53

有时候问题不在于如何使用python，而在于如何处理原始数据。我得到了这个错误信息

Error tokenizing data. C error: Expected 18 fields in line 72, saw 19.

结果发现，在列描述中有时会有逗号。这意味着需要清理CSV文件或使用另一个分隔符。

2017-11-15 10:59:33

我自己也遇到过几次这样的问题。几乎每次，原因都是我试图打开的文件一开始就不是一个正确保存的CSV。这里的“适当”是指每一行都有相同数量的分隔符或列。

通常发生这种情况是因为我在Excel中打开了CSV，然后不恰当地保存了它。尽管文件扩展名仍然是. CSV，但纯CSV格式已经被改变了。

任何以pandas to_csv保存的文件都将被正确格式化，不应该有这个问题。但如果你用另一个程序打开它，它可能会改变结构。

希望这能有所帮助。

2016-07-07 17:22:00

标记数据错误。C错误:第3行有2个字段，见12

这个错误给出了解决问题“Expected 2 fields in line 3, saw 12”的线索，saw 12表示第二行长度为12，第一行长度为2。

当您有如下所示的数据时，如果您跳过行，那么大部分数据将被跳过

data = """1,2,3
1,2,3,4
1,2,3,4,5
1,2
1,2,3,4"""

如果您不想跳过任何行，请执行以下操作

#First lets find the maximum column for all the rows
with open("file_name.csv", 'r') as temp_f:
    # get No of columns in each line
    col_count = [ len(l.split(",")) for l in temp_f.readlines() ]

### Generate column names  (names will be 0, 1, 2, ..., maximum columns - 1)
column_names = [i for i in range(max(col_count))] 

import pandas as pd
# inside range set the maximum value you can see in "Expected 4 fields in line 2, saw 8"
# here will be 8 
data = pd.read_csv("file_name.csv",header = None,names=column_names )

使用range而不是手动设置名称，因为当您有很多列时，这样做会很麻烦。

此外，如果需要使用均匀的数据长度，可以将NaN值填充为0。如。对于聚类(k-means)

new_data = data.fillna(0)

2020-02-16 09:58:45

标记数据错误

推荐文章

最新文章

标签