Bootstrap

NLP:用word2vec分析文本相似度

一.中文语料库

中文语料库主要有以下几种:

1. 腾讯AI Lab2018年分享的开源800万中文词的NLP数据集文章https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247506252&idx=4&sn=1f883532975737c9df02212fc2ae1ca5&chksm=e8d06e3edfa7e728ee0f1ae592e03cee5c818a5b731a0f0560672323894a2304758698b52f37&mpshare=1&scene=1&srcid=1019nHpV0cUEBOk3Z25cuPgA#rd
下载链接为https://ai.tencent.com/ailab/nlp/embedding.html
2. 中文自然语言处理开放平台
由中国科学院计算技术研究所·数字化室&软件室创立一个研究自然语言处理的一个平台,里面包含有大量的训练测试语料。
语料库: http://www.nlp.org.cn/docs/doclist.php?cat_id=9&type=15
文本语料库: http://www.nlp.org.cn/docs/doclist.php?cat_id=16&type=15
3. sogou文本分类语料库
文本分类语料库来源于Sohu新闻网站保存的大量经过编辑手工整理与分类的新闻语料与对应的分类信息。其分类体系包括几十个分类节点,网页规模约为十万篇文档。
地址: http://www.sogou.com/labs/dl/c.html
维基百科中文网页下载资源: https://dumps.wikimedia.org/zhwiki/lastest/zhwiki-lastest-pages-articles.xml.bz2

;