分词
本文研究不同文章中的关键词出现次数,因此将出现在同一篇文章中的关键词都定义为”共现”。
jieba分词
对不同后缀文件(txt、docx、pdf)进行不同处理,提取文章内容为字符串,之后使用jieba库的lcut函数进行分词。
if path+'.txt' in lis:
path += '.txt'
file = open(path
本文研究不同文章中的关键词出现次数,因此将出现在同一篇文章中的关键词都定义为”共现”。
对不同后缀文件(txt、docx、pdf)进行不同处理,提取文章内容为字符串,之后使用jieba库的lcut函数进行分词。
if path+'.txt' in lis:
path += '.txt'
file = open(path
道可道,非常道;名可名,非常名。 无名,天地之始,有名,万物之母。 故常无欲,以观其妙,常有欲,以观其徼。 此两者,同出而异名,同谓之玄,玄之又玄,众妙之门。