Bootstrap

深度学习各子领域略览及术语列表

诸神缄默不语-个人CSDN博文目录

有些内容附带了相应的超链接作为可参考资料,有些没有。很多内容可以参考我的其他博文,其中有一部分链接我也会挂到这里来。

正文

感觉不是MECE的分类,但是算了差不多就这样,建议用Ctrl+F

1. ML基础

  1. 有监督supervised / 无监督unsupervised / 半监督semi-supervised(弱监督) / 自监督self-supervised
    有监督:有标签
    无监督:没有标签
    半监督:有一部分标签,对未标注的样本生成伪标签
    自监督1:没有人工标注的标签,但是我们从数据本身中挖掘出标签,然后用有监督的方法来对其进行学习(如mask掉文本中的部分token)
  2. 分类
    1. 多分类multi-class
    2. 多标签multi-label
    3. 极限多标签文本分类XMTC(NLP课题入门 | 极限多标签文本分类 NLP课题入门 | 极限多标签文本分类 NLP课题入门 | 极限多标签文本分类
    4. 情感分析
      我说这是NLP界最火(指最卷)的研究课题,应该没什么问题吧
      1. aspect-based sentiment analysis (ABSA) 基于方面的情感分析
        在这里插入图片描述
        对这一课题的介绍和图片来源:方面情感分析-Recurrent Attention Network - 知乎
    5. 虚假新闻检测(NLP课题入门 day 4 虚假新闻检测
    6. 异常检测anomaly detection
  3. 回归
    1. Generalized Linear Models (GLMs)
    2. Generalized Additive Models (GAMs)
    3. 线性回归模型
    4. 多重共线性
    5. 向前选择法forward selection
      向前选择法_百度百科
  4. 结构化学习:输出结果是结构化的对象(序列、树、图等)
  5. 概率图模型
    玻尔兹曼机
    深度信念网络
  6. 排序rank
    感觉推荐系统、搜索引擎、信息抽取/检索方面会用得比较多
    1. 指标
      Ranking算法评测指标之 CG、DCG、NDCG - 知乎
      1. CG
      2. DCG
      3. NDCG
  7. 特征工程 特征工程/数据预处理超全面总结(持续更新ing…)
  8. generative生成式 / discrimination判别式模型
    可以参考这篇小红书笔记:
  9. 支持向量机SVM
  10. K近邻分类KNN
  11. 多标签分类的模型
    1. 对于标签数的选择:要么直接设定一个超参(top-k),要么设定概率阈值,要么将所有标签分别作为一个二分类任务、然后设定二分类的概率阈值,要么专门做一次number learning任务(一层神经网络)
      基于法条外部知识的法条推荐这篇用多种表征来进行二分类,缓解阈值选取造成的性能损失
    2. Label Powerset:非常直觉的……直接把多标签重新组合成多分类任务的标签集(暴力出奇迹)
    3. ML-KNN
      数据科学实战系列之ML-KNN(一)_mlknn_明曦君的博客-CSDN博客
  12. graphical model
  13. 隐马尔科夫模型HMM
  14. 条件随机场CRF
  15. 朴素贝叶斯Naive Bayesian分类器 (NBC)
  16. 关联规则
    1. Welcome to Orange3-Associate documentation! — Orange3-Associate documentation
  17. 粒子优化算法PSO
  18. 损失函数可参考这篇:机器学习/深度学习中的常用损失函数公式、原理与代码实践(持续更新ing…)
  19. 留一法 / leave one out (LOO)
  20. 模型融合model fusion与模型聚合model ensemble:https://blog.csdn.net/PolarisRisingWar/article/details/137137401
  21. 难例挖掘 hard-negative-mining
    分析模型难以预测正确的样本,给出针对性方法。
  22. 聚类
    1. K均值K-Means
      手肘法:通过SSE骤降的拐点选择K值(目测法) kmeans的手肘法_Petyon的博客-CSDN博客
    2. 谱聚类 A Tutorial on Spectral Clustering
  23. 归一化 / 正则化
    1. 最大最小规范化min-max scalar
    2. Z Score正则化
    3. batch normalization
    4. layer normalization
    5. dropout(也被认为是传统的神经网络随机删减方法)
    6. 深度学习中的trick | 先BN后dropout:同时使用有争议
    7. DropConnect:就不是将层输入随机置0,而是直接随机将权重元素置0
      DropConnect Explained | Papers With Code
  24. 数据不平衡问题imbalance
  25. FLOPs:注意s小写,是floating point operations的缩写(s表复数),意指浮点运算数,理解为计算量。可以用来衡量算法/模型的复杂度。
    1 MFLOPs(mega) = 10^6 FLOPs,即:100万次浮点运算
    1 GFLOPs(giga) = 10^9 FLOPs,即:10亿次浮点运算
    1 TFLOPs(tera) = 10^12 FLOPs,即:1万亿次浮点运算2

2. DL通用基础

  1. 全连接前馈神经网络FFNN / 多层感知机MLP
  2. 卷积神经网络CNN
  3. 循环神经网络RNN RNN(包括GRU和LSTM)和其他seq2seq/encoder-decoder模型
  4. 回声状态网络 (echo state network,ESN)
    1. 回声状态网络(echo state network,ESN)概述_好大一条比目鱼的博客-CSDN博客_回声状态网络
  5. 稀疏自动编码机SAE
  6. 孪生神经网络Siamese network3:构建2个相同的网络,计算嵌入之间的距离,使得相似输入的嵌入相似(总之是个比较类似于对比学习的思路)
    如果不相似输入的嵌入仍然相似,就叫塌陷(collapse)
  7. 置信度传播belief propagation
  8. 残差网络residual network (ResNet)
    identity mapping: 论文阅读之identity mapping_Teague_DZ的博客-CSDN博客_identity mapping
  9. n-gram
  10. token
  11. 池化
  12. 表示学习
  13. 误差传播
  14. 耦合 / 解耦
  15. 剪枝
  16. 知识蒸馏knowledge distillation
  17. 优化optimization
    1. 凸优化convex optimization
    2. 梯度下降
    3. 随机梯度下降SGD (Stochastic Gradient Descent)
    4. NT-ASGD Explained | Papers With Code
    5. 反向传播back propagation (BP)
    6. 学习率learning rate
    7. weight decay
    8. momentum
    9. Adam
    10. 余弦退火(cosine annealing)和热重启的随机梯度下降
    11. NT-ASGD
    12. EM算法(变分推断(variational inference)/variational EM
    13. NeurIPS 2022上Geoffrey Hinton提出了一种超神奇的、不用反向传播的前向-前向传播的训练方式:
      The Forward-Forward Algorithm: Some Preliminary Investigations
      反正这个东西大意呢就是说,不用反向传播,而是直接进行两次前向传播(一次用正样本,一次用负样本),直接调整权值(具体算法我没看懂),这样的优势有很多啊,比如模型不可微、或者模型是黑盒的时候,这样就也能计算权值了……
      总之我觉得可能是一些RL不够persuasive的场合下能给RL一个灭顶之灾的搞法。
      然后2023年就有把这个东西用在GNN上的工作了(你们是真的快啊,别跟我讲2023年你能连综述都搞出来哈):Graph Neural Networks Go Forward-Forward
    14. 其他不用反向传播的工作,还没看具体是咋干的所以不好分类:
      (2022 ICDM) Backpropagation-free Graph Neural Networks
    15. 蚁群优化算法Ant Colony Optimization (ACO)
    16. 萤火虫算法firefly algorithm
    17. 随机启发式无导数优化方法
      1. Derivative-Free Optimization via Classification
    18. Dragon fly Optimization - GeeksforGeeks
  18. AutoML
    1. Angel-ML/angel: A Flexible and Powerful Parameter Server for large-scale machine learning
    2. PKU-DAIR/mindware: An efficient open-source AutoML system for automating machine learning lifecycle, including feature engineering, neural architecture search, and hyper-parameter tuning.
    3. PKU-DAIR/open-box: Generalized and Efficient Blackbox Optimization System [SIGKDD’21].
    4. 神经网络结构搜索NAS
      大概来说就是不再由人工设置超参,而是直接给定一个搜索空间search space(一堆模型结构组成的空间),然后让模型自己根据模型优化结果来学它应该长成什么结构。
      比较容易联想到ML中传统的网格搜索之类的。DL之所以一般不那么干就是因为那样时间久嘛(我以前做小图GNN的时候,因为跑得快,所以也上网格搜索来着,直到我后来来做了NLP……)
      神经网络结构搜索(NAS)简介 - 知乎
  19. adaptive(加可训练的参数,比如线性转换之类的) / non-adaptive(平均值、最大值etc)
  20. attention(你给我解释解释,什么TMD叫TMD attention(持续更新ing…)
  21. transformers
    Transformer原理纯享版
    Re63:读论文 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
  22. 小样本学习few-shot learning(N-way/shot就表示每类能看到几个训练集样本)
  23. 零样本学习zero-shot learning
  24. 数据漂移data shift
    机器学习中的数据漂移问题 - 哔哩哔哩
  25. 关系学习relational learning(relational learning关系学习
  26. 度量学习metric learning
  27. 对比学习contrastive learning
    参考我写的另一篇博文:对比学习(持续更新ing…)
  28. consistency learning:意思是对数据做微小扰动后,应该使其预测结果不变(呃感觉听起来跟对比学习很像啊)
    【半监督】半监督方法中的Consistency learning - 知乎:只看了概念部分。实例部分咔咔一上来全是CV,看不懂!
  29. 数据增强data augmentation
    1. CV中常用的:随机裁剪,图像反转,图像缩放
    2. NLP中常用的
      1. 回译
      2. 生成(问就是ChatGPT):近义词替换,embedding相近词替换,句子shuffle
      3. 文本对抗
        1. TextFooler(单词重要性排序,单词替换模型)4
  30. 数据抽样sampling
  31. 对抗攻击
  32. 对抗防御
  33. 推荐系统recommendation system
    1. 协同过滤
    2. 冷启动问题cold-start problem
    3. CTR
    4. uplift:一个活动做不做能带来多大的改变
      two-learner: 大概来说就是通过对照试验,分别建模,这样对每一个新的用户,就能通过2估计一个活动做不做能带来多大的改变5
  34. 黑盒模型 / 白盒模型
  35. 可解释性explainbility
    1. attention
    2. 隐藏层(这个感觉CV那边会用得多一点,毕竟NLP的话……你都不连续了,谁知道你是个啥啊)
    3. rationale:大概就是从原文中抽取出一部分内容,作为解释原因
      在这里插入图片描述
      图源:Rationalizing Neural Predictions
    4. 加一个中间任务:抽取特征(感觉上就像是把机器学习的逻辑用深度学习做一遍)
    5. SHAP
      不再黑盒,机器学习解释利器:SHAP原理及实战 - 知乎 看这篇文章的介绍,shapley value(沙普利值) 应该是算每一个特征维度对结果的边际贡献。中间的原理巴拉巴拉的都没看。
  36. 鲁棒性robustness
  37. 贡献度分配问题(Credit Assignment Problem,CAP)6
  38. auto-encoder
  39. latent-variable predictive architectures在这里插入图片描述7
  40. 对抗神经网络GAN
  41. 联邦学习federated learning
  42. 差分隐私differential privacy
  43. 多任务学习multi-task learning:就是在训练多种任务时共用一部分模型参数
    多目标优化:(这部分我是真的没看懂啊,以后慢慢看吧)
    1. 帕累托最优
      一篇用MGDA实现帕累托优化的paper,博文可参考:深度学习中的trick | day 14 | 多任务学习
    2. borg 算法
    3. NSGA-II算法
    4. 遗传算法
    5. 进化算法
    6. metaheuristic 元启发式方法。一些随机搜索算法诸如进化算法、蚁群算法、粒子群算法这类具有启发式框架的智能算法称为元启发式算法。8
  44. 强化学习reinforcement learning
    Autonomous reinforcement learning on raw visual input data in a real world application
    Self-critical Sequence Training for Image Captioning
    1. sequential decision-making problems
    2. valuebased models
    3. policy-based models
    4. 策略梯度方法
    5. Q-learning
    6. Actor-Critic framework(策略policy函数-生成动作-环境交互,价值函数)
    7. asynchronous advantage actorcritic (A3C) algorithm:强化学习算法的训练方法
      Asynchronous Methods for Deep Reinforcement Learning
    8. RLHF(最近应该是因ChatGPT而比较出名)
  45. imitation learning
  46. 模型量化quantization9
  47. 模型加速
    1. 分布式训练
      1. 数据并行
      2. 模型并行
    2. 用cpp写代码10
    3. OpenNMT的加速推理引擎
  48. 灾难性遗忘Catastrophic Forgetting
  49. 迁移学习transfer learning
    Jindong Wang | Book
    1. 差分学习率:在不同的层设置不同的学习率,可以提高神经网络的训练效果
      在这里插入图片描述11
  50. lifelong learning / continuous learning / never ending learning / 增量学习incremental learning:学习新的任务,并保持对以前任务的预测指标
    1. 课程学习Curriculum Learning (CL):安排任务的学习顺序
      the process of ANN training in which samples are used in a meaningful order,把数据分批丢进去学习,或者先学所有数据集,然后逐渐减少样本12
    2. Taskonomy:(感觉跟上一个差不多,我有点懵了)
    3. 2020机器学习前沿技术----LifeLong learning - 知乎
  51. 主动学习active learning (AL):通过选择性的标记较少数据而训练出表现较好的模型
    1. 主动学习(Active Learning),看这一篇就够了 - 知乎
  52. 遗传编程/基因规划 Genetic Programming
    1. 【遗传编程/基因规划】Genetic Programming初学者笔记:基本概念与过程_ocd_with_naming的博客-CSDN博客_gp算法grow方法
    2. 遗传编程(Genetic Programming)_美好在悄悄发生的博客-CSDN博客_遗传编程
    3. 遗传编程(Genetic Programming)入门指南 - 知乎
  53. 上下文学习in-context learning (ICL):看起来意思就是用相关样本来预测目标样本。
    直接这么说有点像transductive learning,但看示例似乎其实是prompt,就是给模型提供几个示例样本,然后让模型进行预测。
    1. 上下文学习(in-context learning),检索和OOD外推 - 知乎
    2. A Survey for In-context Learning
    3. Larger language models do in-context learning differently:这篇认为只有大模型才会做in-context learning,给出错误答案后效果会下降,但如果给出与正确答案一样分布的错误答案,则不会下降太多,说明大模型能学到问题与答案之间的映射关系
      In-context learning只对大模型有效!
    4. In-Context Learning中的示例选择及效果
  54. i.i.d. / out-of-distribution (OOD)
  55. OOD detection
    1. 基于分类模型的方法
    2. 基于生成模型的方法
    3. Energy-based Out-of-distribution Detection
  56. online learning
    1. Online Learning算法理论与实践 - 知乎
  57. 领域自适应
  58. 元学习meta-learning
  59. 捷径学习shortcut learning
    1. 走不得的捷径:shortcut learning捷径学习 - 知乎
  60. 解耦学习
  61. 因果推理
    1. 反事实学习counterfactual learning
      反事实解释(Counterfactual Explanation, CE) - 知乎
  62. AI伦理问题
    1. AI公平性问题
      这个我可能以后也会专门出个专题来写,现在先把收集到的资料整理到这里
      1. 词嵌入中的性别偏见(直接计算距离):
        如何消除机器学习模型中的性别偏见:NLP和词嵌入 - 雷锋字幕组- AI研习社
        Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings
    2. Ethics consideration sections in natural language processing papers
  63. 多模态multi-modal
  64. label embedding
  65. label smoothing
  66. 几何深度学习
    Geometric deep learning: going beyond Euclidean data
    几何深度学习从古希腊到AlphaFold,图神经网络起源于物理与化学:这一篇感觉就是先讲了讲深度学习,然后介绍了图论、化学式、图神经网络
  67. symbolic AI
  68. Neural-Symbolic Integration13
  69. 反绎学习abductive learning (ABL)14
    大概来说是生成伪标签,然后用逻辑推理进行修正,再重新训练分类器,反复迭代,直至分类器不再更新或标签与逻辑统一
  70. Human-level concept learning through probabilistic program induction
  71. 自动定理证明Automated Theorem Proving
    就是让模型证明数学定理
    1. 自动定理证明_百度百科
  72. dual learning对偶学习
    1. Dual learning for machine translation
    2. Dual Supervised Learning
    3. 参考博文:
      1. 9/17 Dual learning_NANCYGOODENOUGH的博客-CSDN博客
  73. 城市计算urban computing:感觉大概来说就是搞“智慧城市”
    群体感知
    城市计算概述(introduction to urban computing) 笔记 - 知乎 这篇讲的是这篇paper:Introduction to Urban Computing
  74. AI+X
    1. 化学
      [IJCAI 2023] 化学小分子预训练模型(Chemical Pre-trained Models, CPMs)首篇综述

3. 主要用于NLP的DL基础

  1. OOV (out of vocabulary)
  2. 停用词
  3. 词干化stemming:将英文中所有同一个词的各种形式统一,如stopped, stopping都统一到stop
  4. 序列标注
    常见任务:分词tokenization,短语识别,分句 / 句子边界检测,命名实体识别NER (named entity recognition),词性标注PoS Tagging,实体抽取,关系抽取relation extraction,事件检测/事件抽取,measurement extraction,指代消解coreference resolution
    可参考我撰写的另一篇博文:序列标注/信息抽取任务(持续更新ing…)
  5. TF-IDF模型
  6. 词袋模型BoW
  7. LDA
    LDA原始论文:Latent Dirichlet Allocation
  8. word2vec
    1. CBOW
    2. skip-gram
  9. 句子表征
    1. 对句子的表示可以分为composion(从词向量到句向量)和distributed(将句子当成一个unit,前后文作为context)
    2. 自然语言处理中句向量 - 知乎
    3. Sentence Embedding 现在的 sota 方法是什么? - 知乎
  10. 预训练语言模型pretrained language model
    1. 可参考我撰写的这两篇博文:预训练语言模型概述(持续更新ing…)各种预训练模型的理论和调用方式大全
    2. [CLS]
    3. [SEP]
    4. [BOS]
    5. [EOS]
      自然语言处理加BOS和EOS的作用是什么? - 知乎
    6. 突现能力
      深入理解语言模型的突现能力
      137 emergent abilities of large language models — Jason Wei
      On Emergent Abilities, Scaling Architectures and Large Language Models — Yi Tay
    7. 思维链chain-of-thought (CoT):大概来说就是让LLM在生成结果前先生成文本形式的推理过程。其实我个人还是觉得这样太简单粗暴了……
      Chain of Thought Prompting Elicits Reasoning in Large Language Models
      Chain of Thought 开山之作论文详解_qq_42190727的博客-CSDN博客
      思维链(Chain-of-Thought, CoT)的开山之作 - 知乎
  11. 微调finetune
  12. prompt / 提示学习prompt learning
  13. bootstraping
  14. 远程监督distant supervision
    认为如果句子中含有一对知识库原本就存在关系的实体,那么这句话大概率表示了这一关系
    关系抽取之远程监督算法(Distant Supervision)_Dr.sky_的博客-CSDN博客:这一篇我只主要看了介绍部分,终于看懂远程监督是啥意思了!
    Distant supervision for relation extraction without labeled data:远程监督界的开山之作
  15. cross-view training:感觉意思差不多是说,在有监督的训练方法之外,新增了其他挖空方式(cross-view)来进行训练
  16. 信息检索information retrieval (IR)15
    1. 召回-重排rerank
    2. 文本匹配
      1. 句子相似度
      2. 算法:BM25
    3. NLP基础知识 | 常见任务类型 | 信息检索
    4. 向量检索/向量相似性计算方法(持续更新ing…)
    5. ad-hoc检索:集合中的文档相对稳定,query变化很大
      routing检索:query要求相对稳定,被查询的文档(数据库)不断变化
      ad hoc检索 & routing检索_ad hoc 检索_Mr.DC30的博客-CSDN博客
  17. 搜索引擎
    Sponsored Search付费搜索
  18. 关键词提取(常用的Python3关键词提取方法
  19. 主题分类/抽取
  20. 文本生成natural language generation (NLG)
    1. 文本摘要text summarization(可以直接参考我写的博文:文本摘要(text summarization)任务:研究范式,重要模型,评估指标(持续更新ing…)
    2. 机器翻译machine translation
    3. paraphrase generation / rephrasing:生成输入文本的同义文本(相当于转述)
    4. PPT生成
    5. 问答QA
      QA相关我之前写过一个回答,列过一些paper,可供参考:https://www.zhihu.com/question/536413640/answer/2533262058
    6. 问题生成question generation
      1. Multiple Choice Question Generation (MCQG)
    7. 文本风格转换text style transfer(是NLG任务,但不像一般NLG任务是源域与目标域样本一比一匹配的,而是那种(比划)就是一堆对应一堆的那种)
    8. 文本纠错text correction
    9. 创新度novelty
    10. encoder-decoder架构
    11. seq2seq任务
    12. BLEU指标
  21. 自然语言理解NLU / 自然语言推理Natural Language Inferencing (NLI)
    一文看懂自然语言理解-NLU(基本概念+实际应用+3种实现方式)
    NLU调研 - 给荔枝打气
    1. 蕴含识别entailment / recognizing textual entailment (RTE)
      矛盾 (contradiction)、无关 (neutral) 和蕴含 (entailment)
      1. SAN:多步推理(RNN+记忆机制)
        用于自然语言推理的随机答案网络 - 知乎 Stochastic Answer Networks for Natural Language Inference
    2. 意图识别/检测(NLP课题入门 | day 14 | 意图分类
      在搜索场景下的应用可参考这篇博文:R&S[25] | 搜索中的意图识别
    3. 槽填充slot filling(NLP基础知识 | 常见任务类型 | 槽填充 NLP课题入门 | day 15 | 槽填充
      在这里插入图片描述
      开放域/域外意图检测
    4. Text-to-SQL
      在这里插入图片描述
  22. Spoken Language Understanding (SLU)
  23. 阅读理解Machine Reading Comprehension (MRC)
  24. 讽刺检测sarcasm detection(NLP课题入门 | day 9 | 讽刺检测
  25. 抄袭检测plagiarism detection
    A Review of Machine Learning based Plagiarism Detection Approaches
  26. 跨语言cross-language
  27. emotional recogniton
  28. semantic relatedness (SR)
    根据上下文或语义相似性量化两个unit(词汇/句子/概念)之间的关系16
    在这里插入图片描述
    比如这个例子中,第一对句子比第二对句子相关性更高
  29. decontectualization:大致来说就是把文中的一句话单拎出来进行修改,补全该句所需的上下文,表示原句意。说来复杂总之可以参考:为什么每次有人大声通电话时,我就很烦躁…_51CTO博客_有人大声说话就烦躁
  30. language detection
    1. 这篇工作上次更新代码已是5年前,上次回复issue已是2020年,所以感觉不太维护了:saffsd/langid.py: Stand-alone language identification system
  31. 语义标记semantic markup:标注语义/内容相关的信息,举个栗子就像这样:
    在这里插入图片描述
    (图源Semantic mark-up of Italian legal texts through NLP-based techniques
    参考资料:
    1. 语义标记_百度百科
    2. Semantic Markup | What is Semantic Markup? | Fable:说这是个辅助技术
    3. What On Earth Is Semantic Markup? (And Why Should You Learn To Write It) »:在HTML的领域上解释了一下这是个啥
  32. 论点挖掘argument mining
    论点挖掘小技巧-CSDN博客
  33. 语义表示
    在这里插入图片描述
    1. 抽象语义表示Abstract Meaning Representation (AMR):使用单根有向无环图,来表示一个句子的语义结构,其中词抽象为概念节点(Node),词之间的语义关系抽象为带有语义角色标签的有向弧(Arc)
      在这里插入图片描述
      在这里插入图片描述
      GoThereGit/Chinese-AMR: Chinese AMR Corpus
  34. 框架语义学frame semantics
    在这里插入图片描述
    在这里插入图片描述
    1. 框架语义解析(Frame Semantic Parsing,FSP)是自然语言处理领域中的一项重要任务,其目标是从句中提取框架语义结构,实现对句子中涉及到的事件或情境的深层理解
  35. 空间语义理解
    在这里插入图片描述
  36. 潜在语义索引latent semantic indexing (LSI)
    在这里插入图片描述
  37. claim verification:根据文档(document)验证声明(claim)的准确性,进行supported(支持),refuted(驳斥),NEI(信息不足)三分类17
  38. 词汇替换任务(lexical substitution)是自然语言处理(NLP)领域的一个任务,其目标是在给定的语境中不改变句子含义的情况下,用替代词替换句子中的目标词。
    词汇替换任务在许多 NLP 应用中都有重要作用,例如:
    词汇简化:将复杂的词汇替换为简单的词汇,以提高文本的可读性和理解度。例如,将“automobile”替换为“car”。
    词义消歧:在多义词的语境中,选择合适的词义。例如,在“The dog chased the cat”中,将“chase”的词义解释为“追逐”。
    摘要生成:将长文本摘要为短文本,其中可能需要替换一些词汇。例如,将“The dog is a loyal animal”替换为“Dogs are loyal animals”。
    词汇替换任务通常分为两类:
    基于规则的词汇替换:使用人工定义的规则来替换目标词。例如,可以使用同义词表来替换词汇。
    基于机器学习的词汇替换:使用机器学习模型来学习替换目标词的策略。例如,可以使用神经网络来学习替换目标词的语义相似度。
    基于规则的词汇替换方法简单易行,但其效果通常不如基于机器学习的方法。基于机器学习的方法可以学习到更复杂的替换策略,但其训练成本通常较高。
    以下是一些词汇替换任务的例子:
    将“The dog chased the cat”中的“dog”替换为“puppy”。
    将“The man is driving a car”中的“car”替换为“automobile”。
    将“The meeting will be held at 9:00 AM”中的“AM”替换为“in the morning”。
  39. 程序语言处理PLP (programming language processing)
    1. program representation
    2. algorithm detection
  40. LegalAI:准备专门写一篇,等等吧
  41. 语言学上的一些概念
    1. 计算语言学CL (Computational Linguistics)
    2. 齐夫定律 - 维基百科,自由的百科全书:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比
    3. 同指关系referentiality:指称同一对象的不同词之间的意义关系。指称同一对象的这些词可能同义,也可能异义。例如“老虎”“於菟”“百兽之王”都可指称虎。18
    4. surface form:词语本身的表现形式19
  42. 量子自然语言处理QNLP (Quantum Natural Language Processing)
    量子+AI:自然语言处理 - 腾讯云开发者社区-腾讯云
    GitHub - ICHEC/QNLP: ICHEC Quantum natural language processing (QNLP) toolkit

4. GNN和图论

  1. transductive learning / inductive learning
    直推 / 归纳(这两个词的翻译真的很诡异)
    如何理解 inductive learning 与 transductive learning? - 知乎
  2. 图的表示:
    定义一(图)
    定义二(图的邻接矩阵)
  3. 图的属性:
    定义三(结点的度,degree)
    定义四(邻接结点,neighbors)
    定义五(行走,walk)
    定理六(行走的个数)
    定义七(路径,path)
    定义八(子图,subgraph)
    定义九(连通分量,connected component)
    定义十(连通图,connected graph)
    定义十一(最短路径,shortest path)
    定义十二(直径,diameter)
    定义十三(拉普拉斯矩阵,Laplacian Matrix)
    定义十四(对称归一化的拉普拉斯矩阵,Symmetric normalized Laplacian)
  4. 节点分类
    1. 典型任务
      1. 生物医药领域:药物发现drug discovery,蛋白质结构预测protein structure prediction20
  5. 链路预测(图学习中的链路预测任务(持续更新ing…)
  6. 图分类
  7. 图着色graph coloring
    1. 四色定理_百度百科
    2. 10.8图着色(Graph Coloring) - 进击の辣条 - 博客园
  8. clique是一个点集,在一个无向图中,这个点集中任意两个不同的点之间都是相连的。maximal clique是一个clique,这个clique不可以再加入任何一个新的结点构成新的clique
    1. 1142 Maximal Clique_小鱼朵~的博客-CSDN博客
  9. graph summarization
    A Survey on Graph Neural Networks for Graph Summarization
  10. 子图学习
  11. subgraph neural networks / subgraph mining(NLP课题入门 | day 20
  12. 对于同质图节点表征模型,我专门另外写了一个博文,可作参考:各种同质图神经网络模型的理论和节点表征学习任务的集合包rgb_experiment
  13. 图扩散卷积graph diffusion convolution (GDC)(仅适用于同配图):怎么说呢,感觉就是用PPR之类的扩散方法重新构建出了一个新图
    Diffusion improves graph learning
    gasteigerjo/gdc: Graph Diffusion Convolution, as proposed in “Diffusion Improves Graph Learning” (NeurIPS 2019)
    原博文:Graph Diffusion Convolution - MSRM Blog
    中文翻译:图扩散卷积:Graph_Diffusion_Convolution_jialonghao的博客-CSDN博客_图扩散
  14. 二分图bipartite graph
    (2023 Social Network Analysis and Mining) A survey on bipartite graphs embedding
  15. 异质图神经网络HGNN(异质图神经网络(持续更新ing…)
    1. metapath
    2. meta-graph
    3. metapath-based neighborhood
    4. meta-path neighbor graph / metapath-based graph
    5. network schema
    6. metapath及其相关概念(持续更新ing…)
  16. 动态图神经网络
    1. 概念:图信息会根据时间进行改变(改变节点特征→比如修改论文内容,改变边→比如增加好友关系)
      动态网络(dynamic network)和时态网络(temporal network)有区别吗? - 知乎:感觉结论是没有区别
    2. 工具包
      1. EasyDGL
        (2023) EasyDGL: Encode, Train and Interpret for Continuous-time Dynamic Graph Learning
      2. DyGLib
        yule-BUAA/DyGLib: A Library for Dynamic Graph Learning
  17. multiplex network:大概就是说,同样的节点,但是有多种不同的组边方式(只有1种节点,但是有多种边的异质图)
    在这里插入图片描述
    (图源:Graph Representation Learning 笔记 Ch1&Ch2(未读)

    Representation learning for attributed multiplex heterogeneous network
  18. hyperbolic
  19. graph un-learning:理念是从模型中去掉已学习的部分训练集(想要保护隐私,所以要删除指定用户数据,这种scenario)
    (2023 ICLR) GNNDelete: A General Strategy for Unlearning in Graph Neural Networks
    (2023 NDSS) Unlearnable Graph: Protecting Graphs from Unauthorized Exploitation:这篇更进一步,直接让模型原本的整个图都不能学了
  20. 图结构学习graph structure learning (GSL):学习节点表示的同时,学习更合适的图结构
    论文笔记:A Survey on Graph Structure Learning: Progress and Opportunities - 知乎
  21. GNN+NLP
    1. GNN以文本作为特征
      1. 直接解耦或端到端训练BERT+GNN
      2. (2022 ICLR) Node Feature Extraction by Self-Supervised Multi-scale Neighborhood Prediction:GIANT模型
        首先用预测图结构(预测一个节点的邻居,在图上是链路预测任务,但用extreme多标签分类的范式进行学习)的自监督学习任务来构建文本表征模型,然后再对文本进行表征,然后再用GNN进行表征。
        文本表征模型用的是XR-Transformers,将节点邻居的跳数视作文本分类的层级
      3. (2022 KAIS) Embedding text-rich graph neural networks with sequence and topical semantic structures
        联合训练图表征和文本表征(利用文本中的图结构)
      4. (2023 ICLR) Learning on Large-scale Text-attributed Graphs via Variational Inference
        用EM算法分别更新LLM和GNN
      5. (2023) SimTeG: A Frustratingly Simple Approach Improves Textual Graph Learning
        直接在下游任务上对LLM做PEFT,用last hidden state做节点表征,然后用GNN学习下游任务。
    2. GNN Transformer
      (2022 NeurIPS) Recipe for a General, Powerful, Scalable Graph Transformer
      GraphGPS包:rampasek/GraphGPS: Recipe for a General, Powerful, Scalable Graph Transformer
      (2023) Attending to Graph Transformers
  22. AutoGraph:这个我主要是听过一位北大博士给我们实验室讲的talk。我自己不是做这个的,所以只在此简单罗列。对slides或者相关专业人士有需求的可以联系我,我再去帮你找人。
    补充知识点:GNN算子可以分为propagate(P)和transform(T)
    在这里插入图片描述
    1. G-NAS:PT的pipeline(模式和深度)是固定的
      GraphNAS Graph Neural Architecture Search
      Auto-GNN: Neural Architecture Search of Graph Neural Networks
    2. Model Degradation Hinders Deep Graph Neural Networks:这篇paper考虑了以前工作太浅导致对全图信息的表现力不足,GNN很难做深是个经典问题了,本文这里给出的解释是拉普拉斯平滑(slides这里还有一些相关论文列表,JKNet,SGC,APPNP,DAGNN等,其他略,可以看下面一条的deep GNN工作集锦),主要探讨了P和T两种算子的深度分别对GNN产生的影响
    3. DFG-NAS: Deep Graph Neural Architecture Search:design space考虑不同的PT顺序、组合和数量,加入门机制、skip connection等在这里插入图片描述
      (架构的选择与图的稀疏程度、大小等有关)
    4. PaSca: a Graph Neural Architecture Search System under the Scalable Paradigm:这篇主要考虑信息通讯代价的问题,提升GNN的scalability
      PKU-DAIR/SGL: A scalable graph learning toolkit for extremely large graph datasets. (WWW’22, 🏆 Best Student Paper Award)
      Neural Message Passing (NMP) 范式(聚合过程是通讯,更新过程是计算)会导致图运算耗时
      SGAP范式:
      在这里插入图片描述
      在这里插入图片描述
      这个架构看起来是传播→训练→传播again(这回用的是训练后得到的软标签),具体的没看
      design space是3个SGAP步骤中的参数选择
    5. 工具包:Angel Graph
    6. G-RNA:关注NAS鲁棒性问题
      (2023 CVPR) Adversarially Robust Neural Architecture Search for Graph Neural Networks
  23. mengliu1998/awesome-deep-gnn: Papers about developing deep Graph Neural Networks (GNNs):关注GNN深度的相关工作
  24. 图神经网络随机删减方法
    AAAI 2023 | DropMessage: 图神经网络随机删减方法的归并统一
  25. 图联邦学习
  26. 图上的模型编辑
    (2023) Editable Graph Neural Network for Node Classifications
  27. (2023 TFS) Fuzzy Representation Learning on Graph
  28. 大规模GNN
    1. 图采样
      (2023 ICLR) LMC: Fast Training of GNNs via Subgraph Sampling with Provable Convergence:LMC 具有极低的计算开销;并且,理论证明:LMC 在子图上训练的 GNNs 的性能可媲美在全量图上训练的 GNNs,同时 LMC 能加速 GNNs 收敛。21
  29. 符号网络signed network:网络中每条边带了正负sign
    1. balanced:每个环的所有边的sign的乘积都是正数
    2. balanced edge set
  30. 图预训练模型
    我搞不懂的,我只觉得他们牛逼
    (2023 WWW) GraphPrompt: Unifying Pre-Training and Downstream Tasks for Graph Neural Networks
    (2023 KDD) When to Pre-Train Graph Neural Networks? From Data Generation Perspective!

5. KG

  1. 知识图谱指南:从理论到应用 - 知乎
  2. 实体对齐
  3. 知识图谱补全KG Completion
  4. query answering
  5. TransE
  6. TransR
  7. DistMult
  8. 实体消歧
  9. 本体对齐ontology alignment

6. W3C规范

  1. RuleML
  2. SWRL (Semantic Web Rule Language):以语义的方式呈现规则的一种语言
  3. OWL本体论

7. 时间序列分析

可以参考我之前撰写的博文:从隔壁老王开始的信号处理入门

  1. 语音处理
    1. speech recogniton
    2. speech synthesis

8. CV

  1. 点云
  2. object classification
  3. 目标检测object detection
    1. two-stage detector:faster RCNN, RFCN
    2. one-stage detector:YOLO, SSD
  4. 边界框bounding box
  5. object segmentation
  6. 语义分割
  7. 实例分割
  8. style transfer
  9. 降噪denoising
  10. image generation
  11. image caption
  12. ViT
  13. MLP-Mixer:总之感觉就是用MLP和别的一些基础模块替代transformer里的模块
    1. 深度学习之图像分类(二十一)-- MLP-Mixer网络详解_木卯_THU的博客-CSDN博客_mlp-mixer
  14. 可解释性
    1. CAM方法:看起来意思是把原本的预测头换成池化层,然后加权求和其池化结果,最后得到图上的重点部分吧
      01 CAM方法(《CAM:Learning Deep Features for Discriminative Localization》) - 知乎
      可解释性(一)之CAM和Grad_CAM_cam grad_打着灯笼摸黑的博客-CSDN博客
  15. 常用工具包:OpenCV,OpenMMlab

9. 其他CS相关

  1. 万物互联IoE:Internet of Everything
  2. 模块化
  3. 重构
  4. 事件日志
  5. 过程挖掘PM (process mining)
    1. 过程挖掘(Process Mining)1——始于颜值_hyhy12580的博客-CSDN博客_process mining
  6. 软件测试
    1. Metamorphic testing - Wikipedia
  7. 数据结构
    1. static structure - segment tree:存储一个整数序列的树(反正就这种感觉)
      在这里插入图片描述
      Segment Tree - GeeksforGeeks:上图也源自该文(感觉有点复杂,还没仔细看)
    2. Trie树 / 字典树:在字符串集合中快速查找某个字符串,合并重复前缀
    3. 前缀表示法 / 普通波兰表示法
  8. 算法
    1. 校验和算法:Luhn算法/模10算法
      Luhn算法_百度百科
  9. FPGA
  10. 元胞自动机cellular automata (CA)
    元胞自动机_百度百科
  11. 跳板机
  12. 矩阵分解
    1. PCA
    2. SVD
  13. 张量分解
    1. 机器学习|Tucker张量分解 - 知乎
  14. 计算机体系结构
    1. cuda
    2. GPU
    3. OpenCL
    4. 异构计算
    5. AI编译器
    6. compiler
    7. LLVM
    8. TensorRT
    9. TVM
    10. MLIR
    11. Neon
  15. 栈帧stack frame
    1. 栈帧(Stack Frame)_ATFWUS的博客-CSDN博客
  16. 22抽象语法树(Abstract Syntax Tree,AST)
    语法树(Syntax tree)
    是源代码语法结构的一种抽象表示。它以树状的形式表现编程语言的语法结构,树上的每个节点都表示源代码中的一种结构。
  17. 具体语法树
    分析树
  18. 语法分析(英语:syntactic analysis,也叫parsing)
  19. 安全
    1. 红队:红队是在军事演习、网络安全演习等领域中扮演敌人或竞争对手角色的群体,扮演己方角色的则称作蓝队。
      在兵棋推演时,红队假设为敌方部队,并站在敌方角色立场来思考作战,红队成员中至少有一部分在演习前不能将身份告知蓝队。
      (来源:https://zh.wikipedia.org/zh-cn/紅隊
    2. red teaming:模仿真实场景进行攻击
      定义:Red teaming, also known as red cell, adversary simulation, or Cyber Red Team, involves simulating real-world cyber attackers’ tactics, techniques, and procedures (TTPs) to assess an organization’s security posture.(来源:What is Red Teaming & How it Benefits Orgs

10. 其他数学

  1. 最优传输optimal transport
    1. 最优传输简介 - Kawayikiwi的文章 - 知乎
  2. 分布相似度
    Wasserstein距离_wasserstein distance_Wanderer001的博客-CSDN博客
    1. Kullback-Lieber (KL) 散度在这里插入图片描述
    2. JS散度:具有对称性在这里插入图片描述
    3. Wasserstein距离 / 推土机距离Earth Mover’s distance
  3. 随机过程
    1. 伊辛模型Ising model
  4. 泰森多边形 / 冯洛诺伊图(Voronoi diagram):这玩意有点复杂,我也没太看懂
    泰森多边形_百度百科

11. 其他术语

  1. asynchronous异步的
  2. 深度学习数据集的In-the-Wild是什么意思? - 知乎:大概来说就是指应用于真实场景
  3. auxiliary task
  4. out of the box开箱即用
  5. in-domain
  6. out-of-domain
  7. open-domain
  8. POS tag
  9. 数据分析领域的专业术语
    1. 用户画像23
  10. lay summary:给外行看的摘要
    Lay Summary是什么?为什么要写好外行也能看懂的lay summary?
  11. 计算机各领域的著名会议/期刊(NCS显然是另一种级别的,别说了,别说了.jpg)
    1. NLP: EMNLP, ACL, COLING, NAACL, IP&M
    2. CV: CVPR
    3. AI: AAAI, KDD, WSDM
    4. 计算机底层系统:OSDI
  12. Prolog逻辑编程语言

12. 常用专业工具

有些我其他博文里写了的,就不再赘述了。

  1. 数据打标:doccano, prodigy, label studio
    使用文本标注工具-doccano - 简书
  2. 数据分析/处理/挖掘工具包:numpy, pandas, SciPy
    (我的意见是学好Excel,走遍天下都不怕)
  3. 除Python以外常用的数据分析工具:R, MATLAB, Lingo
  4. Python包管理工具:Anaconda
  5. Python编程工具(IDE等):VSCode, CodeBlock, PyCharm
  6. 深度学习已组装好的环境:colab
  7. 可视化工具包:matplotlib, seaborn
    专门做PyTorch网络可视化的工具:torchsummary
  8. 机器学习工具包:sklearn
  9. 深度学习框架:PyTorch, TensorFlow(以前还有Keras,现在Keras和TensorFlow合并了), PaddlePaddle, Caffe(已经快没人用了吧)
  10. 自然语言处理工具包:transformers(同属huggingface旗下的包还有datasets, sentence-transformer), fastText, sent2vec,spacy, NLTK, torchtext, gensim
  11. GNN工具包:DGL, PyG, NetworkX
  12. 代码运行日志记录工具:logging, wandb, tensorboard, tensorboardX, fitlog
    我写的wandb教程:wandb使用教程(持续更新ing…)
    我写的fitlog教程:fitlog使用教程(持续更新ing…)
  13. 文本摘要指标rouge相关:pyrouge和rouge在Linux上的安装方法以及结果比较
  14. 大数据工具:Hadoop, Spark
  15. 科研绘图软件:PPT, PS, Visio
  16. 思维导图工具:XMind, MindMaster

本文撰写过程中使用的参考资料

  1. OOD Detection:挖掘生活中的椅子:这一篇之所以没拿来放在正文中当参考文献主要是因为我觉得题图有点吓人
  2. 浅谈自动微分是个啥?真的很浅。:简单瞅了一眼
  3. #DeepLearningBook#算法概览之五:Sequence Modeling_咸鱼酱的博客-CSDN博客:充满年代感的博文,介绍了RNN
  4. 复旦大学邱锡鹏教授:一张图带你梳理深度学习知识脉络:《神经网络与深度学习》节选
  5. 数据竞赛中如何优化深度学习模型

其他补充阅读资料

  1. NLP|分类与匹配的各类评价指标 | codewithzichao:这篇挺全的,还有EM和信息抽取的各种指标都有
  2. 机器学习中的最优化算法(全面总结)

  1. A Cookbook of Self-Supervised Learning
    Self-supervised learning: The dark matter of intelligence ↩︎

  2. 浮点运算量FLOPs与算力单位FLOPS_Joejwu的博客-CSDN博客 ↩︎

  3. 介绍博文:Siamese network 孪生神经网络–一个简单神奇的结构 - 知乎
    孪生网络的万物起源:(1992 Nature) Self-organizing neural network that discovers surfaces in random-dot stereograms
    (1993 NIPS) Signature Verification using a “Siamese” Time Delay Neural Network
    (2004 NIPS) Neighbourhood Components Analysis
    (2005 CVPR) Learning a similarity metric discriminatively, with application to face verification
    (2006 CVPR) Dimensionality Reduction by Learning an Invariant Mapping ↩︎

  4. Is bert really robust? a strong baseline for natural language attack on text classification and entailment.
    参考博文:文本对抗之TextFooler - 知乎 ↩︎

  5. 数据科学| 因果推断:uplift如何建模? ↩︎

  6. Steps Toward Artificial Intelligence ↩︎

  7. Self-supervised learning: The dark matter of intelligence ↩︎

  8. metaheuristic_百度百科 ↩︎

  9. 哈佛大学在读博士:模型量化——更小更快更强 – 闪念基因 – 个人技术分享 ↩︎

  10. 使用llama.cpp加速AquilaChat推理,可在苹果 M1上运行 - 知乎 ↩︎

  11. https://towardsdatascience.com/transfer-learning-using-differential-learning-rates-638455797f00 ↩︎

  12. Cyclical Curriculum Learning ↩︎

  13. 参考资料:
    Neural-Symbolic Learning Systems ↩︎

  14. 参考资料:
    论文阅读 (35):Abductive Learning (反绎学习)_因吉的博客-CSDN博客:这篇我看了归看了,其实没太看懂,只产生了一个模糊的印象,以及这个做法看起来好难,而且好像对我的课题没什么用,我就没再继续看了。
    Abductive Learning:上一篇博文参考的原英文论文
    周志华:“数据、算法、算力”人工智能三要素,在未来要加上“知识”| CCF-GAIR 2020…_人工智能学家的博客-CSDN博客:周志华讲的就是上面那篇论文
    反绎学习简介_Cheng_0829的博客-CSDN博客
    数据算法算力知识反绎学习_weixin_ry5219775的博客-CSDN博客
    [CCF-GAIR 2020]Abductive Learning(反绎学习)-周志华 - 枫之羽
    似乎也是对周志华那篇的笔记
    [论文解读] Bridging Machine Learning and Logical Reasoning by Abductive Learning_年糕糕糕的博客-CSDN博客:简单看了下,嗯,没看懂
    周志华教授发表首届国际学习与推理联合大会 IJCLR 开场 Keynote:探索从纯学习到学习 + 推理的 AI-ZAKER新闻
    机器学习笔记(20)读周老师《探索从纯学习到学习 + 推理的 AI》有感_是魏小白吗的博客-CSDN博客
    干货!原始数据中的反绎知识归纳_AITIME论道的博客-CSDN博客
    论文阅读 (77):Abductive Learning with Ground Knowledge Base_因吉的博客-CSDN博客
    Abductive Logic Programming
    ①①The Role of Abduction in Logic Programming A.C. Kakas ↩︎

  15. 基于深度学习的信息检索模型_深度学习检索_xiaobin199cs的博客-CSDN博客 ↩︎

  16. Semantic relatedness (SR) is defined as a measurement that quantitatively identifies some form of lexical or functional association between two words or concepts based on the contextual or semantic similarity of those two words regardless of their syntactical differences.
    出处:Methods and resources for computing semantic relatedness | Encyclopedia with Semantic Computing and Robotic Intelligence
    Semantic Relatedness Shared Task ↩︎

  17. 事实抽取与核查数据集FEVER调研 - 知乎
    论文阅读Claim Verification虚假消息验证_彭伟_02的博客-CSDN博客 ↩︎

  18. 定义复制自:同指关系_百度百科 ↩︎

  19. 我看的是这篇博文:最先进的语义搜索句子相似度计算_zenRRan的博客-CSDN博客 ↩︎

  20. 有一个贼出名的工作AlphaFold,我之前写的笔记里面简单介绍过一波:cs224w(图机器学习)2021冬季课程学习笔记1 Introduction; Machine Learning for Graphs ↩︎

  21. ICLR’23 | 无惧大规模GNN,用子图也一样!首个可证明收敛的子图采样方法 ↩︎

  22. 抽象语法树_百度百科 ↩︎

  23. 1.3W字教你如何构建用户画像平台(建议收藏) ↩︎

悦读

道可道,非常道;名可名,非常名。 无名,天地之始,有名,万物之母。 故常无欲,以观其妙,常有欲,以观其徼。 此两者,同出而异名,同谓之玄,玄之又玄,众妙之门。

;