Bootstrap

2750个通用停用词表整理,免费下载

中文停用词表下载

一共2750个停用词,属于通用停用词表。
下载地址:

链接:https://pan.baidu.com/s/1u-Ob86VGVSk3vhnwf2S29w

提取码:aoj4

停用词表整理代码

下载了很多网上的通用停用词表,同时合并了我们实验室的停用词表后使用下面的代码对停用词表整理:

import os

def readfile(path): # 读取文件夹下所有的文件
    files = os.listdir(path)
    file_list = []
    for file in files:  # 遍历文件夹
        if not os.path.isdir(file):
            file_list.append(path + '/' + file)
    return file_list

def combine_main():
    clean_words = []
    file_list = readfile('words') # 把所有的停用词表都放在words文件夹下
    for file in file_list:
        with open(file) as f:
            for word in f.readlines():
                # words is single word
                if str(word) not in clean_words:
                    clean_words.append(word)
    with open('clean_words.txt', 'a') as f:
        for word in clean_words:
            f.write(word)
        pass

combine_main()
;