Bootstrap

csv文件读写中的特殊情况(逗号)

参考文章:

最近有一个读写csv文件的任务,遇到了部分内容中有逗号的导致读入异常的特殊情况。检索相关资料后发现csv文件的读入不是简单地对逗号进行分割,而是有特殊的处理方式:

  1. 如果字段中有逗号(,),该字段使用双引号(")括起来;
  2. 如果该字段中有双引号,该双引号前要再加一个双引号,然后把该字段使用双引号括起来。

这两点很好理解,就是把有逗号的内容用双引号括起来,使其成为一个完整的文本内容。然而这样就会影响原本有双引号的内容,所以在原来的双引号前面再加一个引号进行区分。
参考相关资料,写出csv文件的代码大致完成了:

public static String writeRow(String[] values){
        StringBuilder result = new StringBuilder();
        for(String v : values){
            boolean quoteFlag = false; //是否添加双引号的标记
            if(v.contains("\"")){ //将引号替换为双引号,并添加标记
                v = v.replaceAll("\"", "\"\"");
                quoteFlag = true;
            }
            if(v.contains(",")){ //存在逗号则添加标记
                quoteFlag = true;
            }
            if(quoteFlag){ //添加内容两端的双引号
                v = "\"" + v + "\"";
            }
            result.append(v).append(",");
        }
        return result.toString();
    }

而读入csv文件相对地成了难点,如何判断一个逗号是否被双引号?
注意到修改过的内容里所有双引号都是成对出现的(第2条),所以判断一个逗号有没有被括号扩住,可以检查这个逗号后面的双引号数量。如果为偶,则表示逗号不在双引号内,这个逗号需要被分割;若为奇,则逗号在双引号内,不用分割。
可以用正则表达式来完成这个判断(参考资料):

",(?=([^\"]*\"[^\"]*\")*[^\"]*$)"

其中"?="表示非获取匹配,正向肯定预查,可以在这里找到相关资料。
最后,读入csv文件的代码大致是这样:

    public static String[] readRow(String row){
        String[] values = row.trim().split(",(?=([^\"]*\"[^\"]*\")*[^\"]*$)", -1); //分割没有被双引号扩住的逗号
        for(int i = 0; i < values.length; i++){
            if(values[i].startsWith("\"")) values[i] = values[i].substring(1, values[i].length()); //去掉首尾两端的双引号
            if(values[i].endsWith("\"")) values[i] = values[i].substring(0, values[i].length() - 1);
            values[i] = values[i].replaceAll("\"\"", "\""); //将连续双引号变为单个双引号
        }
        return values;
    }
;