处理CSV文件中的逗号

我正在寻找关于如何处理正在创建的csv文件的建议，然后由我们的客户上传，并且可能在值中有逗号，如公司名称。

我们正在考虑的一些想法是:带引号的标识符(value "，" values "，"等等)或使用|代替逗号。最大的问题是我们必须让它变得简单，否则客户就不会这么做。

当前回答

我使用papaParse库来解析CSV文件，并拥有键-值对(键/头/ CSV文件-值的第一行)。

下面是我举的例子:

https://codesandbox.io/embed/llqmrp96pm

它有一个dummy.csv文件来演示CSV解析。

我在reactJS中使用过它，尽管它很容易在任何语言编写的应用程序中复制。

2019-04-24 03:28:32

其他回答

如果您在*nix-系统上，可以访问sed，并且仅在您的CSV的特定字段中可以有一个或多个不需要的逗号，您可以使用以下一行程序，以便将它们包含在RFC4180 Section 2中:

sed -r 's/([^,]*,[^,]*,[^,]*,)(.*)(,.*,.*)/\1"\2"\3/' inputfile

根据不需要的逗号可能在哪个字段中，您必须更改/扩展正则表达式的捕获组(以及替换)。上面的示例将第四个字段(六个字段中的第四个字段)括在引号中。

结合使用——In -place选项，您可以将这些更改直接应用到文件。

为了“构建”正确的正则表达式，需要遵循一个简单的原则:

对于CSV中出现在不需要的逗号字段之前的每个字段，您可以编写一个[^，]*，并将它们放在一个捕获组中。对于包含不需要的逗号的字段，请写入(.*)。对于带不需要的逗号的字段后面的每个字段，都要写一个，。*并将它们放在一个捕获组中。

下面是根据特定字段的不同可能的正则表达式/替换的简短概述。如果没有给出，则替换为\1"\2"\3。

([^,]*)(,.*)                     #first field, regex
"\1"\2                           #first field, substitution

(.*,)([^,]*)                     #last field, regex
\1"\2"                           #last field, substitution


([^,]*,)(.*)(,.*,.*,.*)          #second field (out of five fields)
([^,]*,[^,]*,)(.*)(,.*)          #third field (out of four fields)
([^,]*,[^,]*,[^,]*,)(.*)(,.*,.*) #fourth field (out of six fields)

如果您想用sed删除不需要的逗号，而不是用引号将它们括起来，请参考此答案。

2014-01-24 09:39:19

您可以像这样读取csv文件。

这利用了分割和空格。

ArrayList List = new ArrayList();
static ServerSocket Server;
static Socket socket;
static ArrayList<Object> list = new ArrayList<Object>();


public static void ReadFromXcel() throws FileNotFoundException
{   
    File f = new File("Book.csv");
    Scanner in = new Scanner(f);
    int count  =0;
    String[] date;
    String[] name;
    String[] Temp = new String[10];
    String[] Temp2 = new String[10];
    String[] numbers;
    ArrayList<String[]> List = new ArrayList<String[]>();
    HashMap m = new HashMap();

         in.nextLine();
         date = in.nextLine().split(",");
         name = in.nextLine().split(",");
         numbers = in.nextLine().split(",");
         while(in.hasNext())
         {
             String[] one = in.nextLine().split(",");
             List.add(one);
         }
         int xount = 0;
         //Making sure the lines don't start with a blank
         for(int y = 0; y<= date.length-1; y++)
         {
             if(!date[y].equals(""))
             {   
                 Temp[xount] = date[y];
                 Temp2[xount] = name[y];
                 xount++;
             }
         }

         date = Temp;
         name =Temp2;
         int counter = 0;
         while(counter < List.size())
         {
             String[] list = List.get(counter);
             String sNo = list[0];
             String Surname = list[1];
             String Name = list[2];
             for(int x = 3; x < list.length; x++)
             {           
                 m.put(numbers[x], list[x]);
             }
            Object newOne = new newOne(sNo, Name, Surname, m, false);
             StudentList.add(s);
             System.out.println(s.sNo);
             counter++;
         }

2013-11-21 05:50:36

使用制表符(\t)分隔字段。

2016-07-17 00:06:56

我通常在CSV文件解析例程中这样做。假设“line”变量是CSV文件中的一行，所有列的值都用双引号括起来。执行以下两行代码后，您将在“values”集合中获得CSV列。

// The below two lines will split the columns as well as trim the DBOULE QUOTES around values but NOT within them
    string trimmedLine = line.Trim(new char[] { '\"' });
    List<string> values = trimmedLine.Split(new string[] { "\",\"" }, StringSplitOptions.None).ToList();

2016-02-10 13:20:20

您可以在字段周围加上双引号。我不喜欢这种方法，因为它增加了另一个特殊字符(双引号)。只需定义一个转义字符(通常是反斜杠)，并在需要转义的地方使用它:

data,more data,more data\, even,yet more

您不必尝试匹配引号，而且需要解析的异常也更少。这也简化了您的代码。

2009-04-20 19:34:14

处理CSV文件中的逗号

推荐文章

最新文章

标签