参考文章:
最近有一个读写csv文件的任务,遇到了部分内容中有逗号的导致读入异常的特殊情况。检索相关资料后发现csv文件的读入不是简单地对逗号进行分割,而是有特殊的处理方式:
- 如果字段中有逗号(,),该字段使用双引号(")括起来;
- 如果该字段中有双引号,该双引号前要再加一个双引号,然后把该字段使用双引号括起来。
这两点很好理解,就是把有逗号的内容用双引号括起来,使其成为一个完整的文本内容。然而这样就会影响原本有双引号的内容,所以在原来的双引号前面再加一个引号进行区分。
参考相关资料,写出csv文件的代码大致完成了:
public static String writeRow(String[] values){
StringBuilder result = new StringBuilder();
for(String v : values){
boolean quoteFlag = false; //是否添加双引号的标记
if(v.contains("\"")){ //将引号替换为双引号,并添加标记
v = v.replaceAll("\"", "\"\"");
quoteFlag = true;
}
if(v.contains(",")){ //存在逗号则添加标记
quoteFlag = true;
}
if(quoteFlag){ //添加内容两端的双引号
v = "\"" + v + "\"";
}
result.append(v).append(",");
}
return result.toString();
}
而读入csv文件相对地成了难点,如何判断一个逗号是否被双引号?
注意到修改过的内容里所有双引号都是成对出现的(第2条),所以判断一个逗号有没有被括号扩住,可以检查这个逗号后面的双引号数量。如果为偶,则表示逗号不在双引号内,这个逗号需要被分割;若为奇,则逗号在双引号内,不用分割。
可以用正则表达式来完成这个判断(参考资料):
",(?=([^\"]*\"[^\"]*\")*[^\"]*$)"
其中"?="表示非获取匹配,正向肯定预查,可以在这里找到相关资料。
最后,读入csv文件的代码大致是这样:
public static String[] readRow(String row){
String[] values = row.trim().split(",(?=([^\"]*\"[^\"]*\")*[^\"]*$)", -1); //分割没有被双引号扩住的逗号
for(int i = 0; i < values.length; i++){
if(values[i].startsWith("\"")) values[i] = values[i].substring(1, values[i].length()); //去掉首尾两端的双引号
if(values[i].endsWith("\"")) values[i] = values[i].substring(0, values[i].length() - 1);
values[i] = values[i].replaceAll("\"\"", "\""); //将连续双引号变为单个双引号
}
return values;
}