[1] 什么是 NLP(自然语言处理)
[2] 为什么要写博客
入手差不多有一个月,算是有点了解。前期总想着把自己一步步获取的知识写下来,用以作为知识路线为以后的深造指明方向。先,把前期做的几个小实验总结一下
[3] 内容摘要
这里只有简单的几个小实验,如果你想入门 NLP。建议看一下去搜一下,CSDN 中就有好多资料。这里可以帮你在刚刚入门后,自己动动手。当然,有一定基础的可以根据这几个实验入门 NLP。(实验非常简单,不懂的搜一搜就入门了)时间宝贵,决定去留吧!【不希望,你看后没有一点收获】
实验一:中文分词
- 语料:北大的人民日报语料。人民日报语料
- 要求:训练北大人民日报的语料,利用 正向最大匹配法 实现中文分词。(最简单的分词方法)详见如下
- 代码参考
- ps:这只是一个简单的分词练习,现在有好多利用机器学习的方法来解决分词问题的。现在基于字标注的方法效果比较好(crf)
实验二:词性标注
实验三:信息检索(布尔查询及VSM查询)
- 要求:详见如下
- ps:注意这里的实验与 NLP 有点差异,但是也可以看做入门知识吧!
- 代码参考
- ps:这里的代码并没有局限于实验要求,而是做了一个小型的检索引擎。
- ps:关于搜索引擎的目前 google 等在完善语义搜索
实验四:基于LM(语言模型)的检索
- 要求:详见如下(只是下面的第二问)
- 代码参考
- ps:该实验有点统计模型的思想,涉及到统计模型你就应该想到机器学习了吧!
感谢:实验内容由谭老师提供,感谢!
接下来要总结自己的入门路线了,奋斗ing 。。。