参考:http://www.docin.com/p-1775027820.html
目的
从文本中识别实体并抽取实体之间的语义关系
主流的关系抽取技术
- 有监督的学习方法:将关系抽取任务当做分类问题。根据训练数据设计有效的特征,从而学习各类分类模型,然后使用训练好的分类器预测关系。该方法的问题在于需要大量的人工标注训练语料,而语料标注工作通常非常耗时耗力。
- 半监督的学习方法:主要采用 BootStrapping 进行关系抽取,对于要抽取的关系,该方法首先手工设定若干种子实例,然后迭代地从数据中抽取关系对应的关系模板和更多的实例。
- 无监督的学习方法:假设拥有相同语义关系的实体对拥有相似的上下文信息。因此可以利用每个实体对对应上下文信息来代表该实体对的语义关系,并对所有实体对的语义关系进行聚类。
与其他两种方法相比,有监督的学习方法能够抽取更有效的特征,其准确率和召回率都更高。
基于有监督学习的关系抽取
有监督的关系抽取方法主要包括:
基于核函数的方法[Zhao and Grishamn 2005;Bunescu and Mooney 2006]
基于逻辑回归的方法[Kambhatla 2004]
基于句法解析增强的方法[Miller et al.2000]
基于条件随机场的方法[Culotta et al. 2006]
但是阻碍这些系统效果继续提