文本归一化---学习笔记

关于归一化：
1. 没有适用于所有情况的“正确”归一化方法
2. 归一化会减少数据的随机性，使其更接近预定义的“标准”，有助于减少计算机必须处理的不同信息的数量，提高效率
3. 归一化还可能降低输入的维数，或降低载入数据所需的处理量
4. 输入数据的特点有助于确定将要用来归一化输入的步骤。
NLP中的归一化：文本归一化
1. 对于NLP，更精确的系统是针对上下文量身定制的系统。
2. 极少数情况下，文本中很多变化和错误很重要，不能进行归一化，如考虑测试校正算法
3. 在NLP中，词汇是主要特征，希望词汇量尽可能少，因为当词汇中的变化较少时，可以更好地实现目标。
4. 归一化是NLP预处理管道中的管道。可能删除对以后的步骤很重要的信息（例如在定形之前删除停用词）
5. 在NLP中常见的方法：
  1. 删除重复的空格和标点符号
  2. 去除口音（如果数据包含来自“外国”语言的变音符号-这有助于减少与编码类型有关的错误）。
  3. 去除大写字母（通常，使用小写单词可获得更好的结果。但是，在某些情况下，大写字母对于提取信息（例如名称和位置）非常重要）。
  4. 删除或替换特殊字符/表情符号
  5. 替换单词缩写（英语中很常见；例如：“I'm’’”→“I am”）。
  6. 将单词数字转换为阿拉伯数字（例如：“二十三”→“ 23”）。
  7. 为特殊符号替换（例如：“ $ 50”→“钱”）。
  8. 缩写标准化（例如：“ US”→“美国” /“美国”，“ btw”→“顺便说一下”）。
  9. 标准化日期格式，社会保险号或其他具有标准格式的数据。
  10. 拼写纠正
    1. 一个单词可以用无限方式拼写错误，因此拼写纠正可以通过“更正”来减少词汇变化
    2. 如果要处理推特，即时消息和电子邮件等开放用户输入的数据，这一点非常重要。
    3. symspellpy的模块可以很快地进行拼写校正。
  11. 通过词干去除性别/时间/等级差异。
  12. 将稀有单词替换为更常见的同义词。

文本归一化---学习笔记

悦读