Bootstrap

文本归一化---学习笔记

  1. 关于归一化:
    1. 没有适用于所有情况的“正确”归一化方法
    2. 归一化会减少数据的随机性,使其更接近预定义的“标准”,有助于减少计算机必须处理的不同信息的数量,提高效率
    3. 归一化还可能降低输入的维数,或降低载入数据所需的处理量
    4. 输入数据的特点有助于确定将要用来归一化输入的步骤。
  2. NLP中的归一化:文本归一化
    1. 对于NLP,更精确的系统是针对上下文量身定制的系统。
    2. 极少数情况下,文本中很多变化和错误很重要,不能进行归一化,如考虑测试校正算法
    3. 在NLP中,词汇是主要特征,希望词汇量尽可能少,因为当词汇中的变化较少时,可以更好地实现目标。
    4. 归一化是NLP预处理管道中的管道。 可能删除对以后的步骤很重要的信息(例如在定形之前删除停用词)
    5. 在NLP中常见的方法:
      1. 删除重复的空格和标点符号
      2. 去除口音(如果数据包含来自“外国”语言的变音符号-这有助于减少与编码类型有关的错误)。
      3. 去除大写字母(通常,使用小写单词可获得更好的结果。但是,在某些情况下,大写字母对于提取信息(例如名称和位置)非常重要)。
      4. 删除或替换特殊字符/表情符号
      5. 替换单词缩写(英语中很常见;例如:“I'm’’”→“I am”)。
      6. 将单词数字转换为阿拉伯数字(例如:“二十三”→“ 23”)。
      7. 为特殊符号替换(例如:“ $ 50”→“钱”)。
      8. 缩写标准化(例如:“ US”→“美国” /“美国”,“ btw”→“顺便说一下”)。
      9. 标准化日期格式,社会保险号或其他具有标准格式的数据。
      10. 拼写纠正
        1. 一个单词可以用无限方式拼写错误,因此拼写纠正可以通过“更正”来减少词汇变化
        2. 如果要处理推特,即时消息和电子邮件等开放用户输入的数据,这一点非常重要。
        3. symspellpy的模块可以很快地进行拼写校正。
      11. 通过词干去除性别/时间/等级差异。
      12. 将稀有单词替换为更常见的同义词。
;