文本数据分析的价值
文本数据在我们的生活中无处不在:在微信朋友圈、微博中发表的感想;在论坛上发表的评价商品的帖子;由应用后台自动生成的机器日志等。这类数据本身包含了大量有用的信息,但由于文本表达方式可以很灵活,在不需要严格遵循语法的情况下也能准确表达信息。比如下图中表达人物年龄就有三种不同的说法。
例子中,关于年龄最重要的信息是姓名和岁数,图中右侧的的结构化数据才是表达这些核心信息、应用可以处理的主要形式。怎样把非结构化文本数据转换成可以准确表达信息的结构化数据是文本数据分析的一大难题。
文本数据分析的办法
通常实现文本数据分析主要有两种模式:基于语法分析的模式,和基于语义关联的模式(完全抛开语法,通过文字的上下文关联进行分析)。
基于语法的分析需要根据语言语法,将文本数据拆分成语法要素,如主谓宾等,再根据语法和语义规则生成目标信息,这种方式适用与文字内容比较规范的场景。
基于语义关联的模式,则是大量采用分词、字典等综合技术对文本数据进行标记(打标签),再根据特定规则或组合生成最终信息,其实现方式大致包括如下步骤:
常用的文本分析工具: