- 关于归一化:
- 没有适用于所有情况的“正确”归一化方法
- 归一化会减少数据的随机性,使其更接近预定义的“标准”,有助于减少计算机必须处理的不同信息的数量,提高效率
- 归一化还可能降低输入的维数,或降低载入数据所需的处理量
- 输入数据的特点有助于确定将要用来归一化输入的步骤。
- NLP中的归一化:文本归一化
- 对于NLP,更精确的系统是针对上下文量身定制的系统。
- 极少数情况下,文本中很多变化和错误很重要,不能进行归一化,如考虑测试校正算法
- 在NLP中,词汇是主要特征,希望词汇量尽可能少,因为当词汇中的变化较少时,可以更好地实现目标。
- 归一化是NLP预处理管道中的管道。 可能删除对以后的步骤很重要的信息(例如在定形之前删除停用词)
- 在NLP中常见的方法:
- 删除重复的空格和标点符号
- 去除口音(如果数据包含来自“外国”语言的变音符号-这有助于减少与编码类型有关的错误)。
- 去除大写字母(通常,使用小写单词可获得更好的结果。但是,在某些情况下,大写字母对于提取信息(例如名称和位置)非常重要)。
- 删除或替换特殊字符/表情符号
- 替换单词缩写(英语中很常见;例如:“I'm’’”→“I am”)。
- 将单词数字转换为阿拉伯数字(例如:“二十三”→“ 23”)。
- 为特殊符号替换(例如:“ $ 50”→“钱”)。
- 缩写标准化(例如:“ US”→“美国” /“美国”,“ btw”→“顺便说一下”)。
- 标准化日期格式,社会保险号或其他具有标准格式的数据。
- 拼写纠正
- 一个单词可以用无限方式拼写错误,因此拼写纠正可以通过“更正”来减少词汇变化
- 如果要处理推特,即时消息和电子邮件等开放用户输入的数据,这一点非常重要。
- symspellpy的模块可以很快地进行拼写校正。
- 通过词干去除性别/时间/等级差异。
- 将稀有单词替换为更常见的同义词。