中文停用词表下载
一共2750个停用词,属于通用停用词表。
下载地址:
链接:https://pan.baidu.com/s/1u-Ob86VGVSk3vhnwf2S29w
提取码:aoj4
停用词表整理代码
下载了很多网上的通用停用词表,同时合并了我们实验室的停用词表后使用下面的代码对停用词表整理:
import os
def readfile(path): # 读取文件夹下所有的文件
files = os.listdir(path)
file_list = []
for file in files: # 遍历文件夹
if not os.path.isdir(file):
file_list.append(path + '/' + file)
return file_list
def combine_main():
clean_words = []
file_list = readfile('words') # 把所有的停用词表都放在words文件夹下
for file in file_list:
with open(file) as f:
for word in f.readlines():
# words is single word
if str(word) not in clean_words:
clean_words.append(word)
with open('clean_words.txt', 'a') as f:
for word in clean_words:
f.write(word)
pass
combine_main()