常用的文本清洗与预处理步骤一般如下:
一、去除数字:
数字在文本分析中一般没有意义,所以在进一步分析前需要去除它们。
【我觉得数字对于语义的理解还是有一定作用的,将所有数字(阿拉伯数字和单词)更换为一个标注<num>会不会更好?】
二、去除链接地址:
链接地址显然也需要在进一步分析前被去掉ÿ
常用的文本清洗与预处理步骤一般如下:
一、去除数字:
数字在文本分析中一般没有意义,所以在进一步分析前需要去除它们。
【我觉得数字对于语义的理解还是有一定作用的,将所有数字(阿拉伯数字和单词)更换为一个标注<num>会不会更好?】
二、去除链接地址:
链接地址显然也需要在进一步分析前被去掉ÿ
道可道,非常道;名可名,非常名。 无名,天地之始,有名,万物之母。 故常无欲,以观其妙,常有欲,以观其徼。 此两者,同出而异名,同谓之玄,玄之又玄,众妙之门。