Bootstrap

NLP入门实验

[1] 什么是 NLP(自然语言处理)


[2] 为什么要写博客
入手差不多有一个月,算是有点了解。前期总想着把自己一步步获取的知识写下来,用以作为知识路线为以后的深造指明方向。先,把前期做的几个小实验总结一下


[3] 内容摘要
这里只有简单的几个小实验,如果你想入门 NLP。建议看一下去搜一下,CSDN 中就有好多资料。这里可以帮你在刚刚入门后,自己动动手。当然,有一定基础的可以根据这几个实验入门 NLP。(实验非常简单,不懂的搜一搜就入门了)时间宝贵,决定去留吧!【不希望,你看后没有一点收获】


实验一:中文分词
  • 语料:北大的人民日报语料。人民日报语料
  • 要求:训练北大人民日报的语料,利用 正向最大匹配法 实现中文分词。(最简单的分词方法)详见如下
    这里写图片描述
    这里写图片描述
  • 代码参考
  • ps:这只是一个简单的分词练习,现在有好多利用机器学习的方法来解决分词问题的。现在基于字标注的方法效果比较好(crf)
实验二:词性标注
  • 语料:北大的人民日报语料。人民日报语料
  • 要求:训练北大人民日报的语料,基于 HMM 实现词性标注。(提示:viterbi 动态规划算法)
  • 代码参考
实验三:信息检索(布尔查询及VSM查询)
  • 要求:详见如下
    这里写图片描述
  • ps:注意这里的实验与 NLP 有点差异,但是也可以看做入门知识吧!
  • 代码参考
  • ps:这里的代码并没有局限于实验要求,而是做了一个小型的检索引擎。
  • ps:关于搜索引擎的目前 google 等在完善语义搜索
实验四:基于LM(语言模型)的检索
  • 要求:详见如下(只是下面的第二问)
    这里写图片描述
  • 代码参考
  • ps:该实验有点统计模型的思想,涉及到统计模型你就应该想到机器学习了吧!

感谢:实验内容由谭老师提供,感谢!


接下来要总结自己的入门路线了,奋斗ing 。。。

;