思路:
1、对新文本进行对其断句、分词、去除停用词,
2、计算文档的二阶共现、三阶共现、四阶共现频率
3、发现两个字符串合并的新词:针对统计的二阶共现频率,计算词语的
互信息:
左右熵:基于对应三阶共现结果
将结果进行加权求和,最后排序,根据经验阈值确定新词,然后使用词典过滤后加入词典
4、发现三个字符串合并的新词,与3 同理,统计三阶共现概率
互信息计算需要 对n-gram 的互信息求和,如 细思极恐=>MI(细,思)+MI(思,极)+MI(极,恐)
左右熵计算:计算对应的四阶共现词频