Bootstrap

如何对文本数据进行预处理?——结合常用处理方法谈谈自己的思考

常用的文本清洗与预处理步骤一般如下:


一、去除数字:

数字在文本分析中一般没有意义,所以在进一步分析前需要去除它们。

【我觉得数字对于语义的理解还是有一定作用的,将所有数字(阿拉伯数字和单词)更换为一个标注<num>会不会更好?】


二、去除链接地址:

链接地址显然也需要在进一步分析前被去掉ÿ

;