相关概念
计算机视觉(computer vision--CV)
定义:
计算机视觉是人工智能 (AI) 的一个领域,是指让计算机和系统能够从图像、视频和其他视觉输入中获取有意义的信息,并根据该信息采取行动或提供建议。
历史:
60 多年来,科学家和工程师一直在尝试开发各种方法,让机器能够看到和理解视觉数据。 在 1959 年的第一次实验中,神经生理学家向一只猫展示一组图像,试图唤起猫大脑的反应。 他们发现猫会先对硬边缘或线条做出反应,从科学角度来说,这意味着图像处理从简单的形状开始,例如直边。
大约在同一时期,第一个计算机图像扫描技术成功地开发出来,使计算机能够将图像数字化并获取图像。 1963 年,计算机能够将二维图像转换为三维形式,标志着第二个里程碑的实现。 在 20 世纪 60 年代,人工智能作为一个学术域研究诞生了,同时也标志着人们开始探求依靠人工智能解决人类视觉问题的方法。
1974 年,光学字符识别 (OCR) 技术走向市场,它能够识别以任何字体或字型打印的文字。同样,智能字符识别 (ICR) 能够使用神经网络辨认手写文字。此后,OCR 和 ICR 广泛地运用到文件和发票处理、车牌识别、移动支付、机器翻译和其他常见领域。
1982 年,神经系统科学家 David Marr 证实了视觉分层工作原理,并推出了使机器能够检测边缘、角落、曲线和类似的基本形状的算法。 与此同时,计算机科学家 Kunihiko Fukushima 开发了一个能够识别模式的细胞网络。 这个网络称为 Neocognitron,它在一个神经网络中包含了多个卷积层。
到 2000 年,物体识别成为研究重点,2001 年,第一个实时人脸识别应用诞生。 在 21 世纪初,逐渐形成了视觉数据集标记和注释的标准化实践。
图像表示:
图像分类(image classification):从给定的标签集合为某个图像贴上标签
目标定位(object localization):判断某个目标在图像上的具体位置
目标检测(object detection)(多个目标):找到目标并识别目标
目标跟踪(Object Tracking):对目标进行动态观察
图像分割(Image Segmentation):检测到目标物体,然后把物体分割出来
图像生成(Image Generation)
人脸识别(Face Recognition):
1.人脸检测,以进行检测并分割//图像识别
2.人脸对齐,对齐特称点
3.人脸编码,人脸图像的像素值会被转换成紧凑且可判别的特征向量//特征提取
4.人脸匹配,根据上文的特征向量进行匹配//特征匹配
特征提取:
特征提取和匹配是许多计算机视觉应用中的一个重要任务。 特征可能是图像中的特定结构,例如点,边缘或对象。
基本流程:
-
根据特定准则,提取图像中的特征点 ;
-
提取特征点周围的图像块,构造特征描述符;//特征提取
-
通过特征描述符对比,实现特征匹配。//特征匹配
特征提取的实现主要通过两种基本的网络类型:卷积神经网络(CNN)和循环神经网络(RNN)
关键点:
关键点也称兴趣点,是纹理中表达的点。关键点往往是物体边界方向突然改变的点或两个或多个边缘段之间的交点。它在图像空间中具有明确的位置或很好地定位。即使图像域的局部或全局存在如光照和亮度变化等的扰动,关键点仍然是稳定,可以被重复可靠地计算出。除此之外它能够提供有效的检测。
应用方向:
智能安防、医疗影像分析、自动驾驶、工业质检、增强现实(AR)与虚拟现实(VR)
智能音频技术
定义:
是一种利用计算机科学和人工智能技术对音频信号进行处理、分析和理解的方法
流程:
1.数据加载和预处理
2.构建CNN模型
3.训练模型
4.评估模型
音频信息识别技术特征及核心能力:
信号处理、特征提取、机器学习;相关技术能力有傅里叶变换、波的匹配、滤波、调制信号处理分析技术和MFCC、chroma等特征提取技术。
未来发展趋势:
深度学习模型的优化:随着计算能力的提升,深度学习模型将更加复杂,同时也更加高效。未来的研究将关注如何进一步优化模型,提高识别和分类的准确性。
多模态融合:音频信号与视频信号、文本信号等多种信号类型相互作用,未来的研究将关注如何将多种信号类型融合,实现更高效的音频识别和分类。
跨领域应用:音频识别和分类的技术将在更多领域得到应用,如智能家居、智能汽车、语音助手等。
自然语言处理(NLP)
文本表示方法:
-
基于词向量的表示方法
词向量:
将词转化而成的稠密向量(也叫词嵌入--把词映射为实数域向量的技术),并且对于相似的词,其对应的词向量也相近
离散表示:
One-hot representation:
是将每个可能的取值都表示成一个二进制位,只有一个位置为1,其他位置为0。把每个词表示为一个长向量,向量的维度则为词表大小。
分布式表示:
##密集向量:也称为稠密向量,使用普通的数组来存储向量的值
用一个词附近的其它词来表示该词,将词表示成一个定长的连续的稠密向量
-
有监督文本表示方法
相似性度量:
字面相似:
期望两个文本长得越相像,实际含义也越一致。
采用编辑距离算法、最长公共子序列、局部哈希等算法(经典的字符串算法)
语义相似:
选择词向量进行相关的判断。
如可把两篇文本词向量看作两个点估算距离(欧氏距离),或计算两向量的余弦值(余弦相似度),欧氏距离越小则说明两个文本的差异越小,余弦相似度越接近1则说明两个文本的差异越小;反之则相反。
语义分析:
词汇级语义分析:
1.词义消歧:消解一词多义,方法可以有基于背景知识的消歧、最大熵等等。
2.词语相似度:
定义:两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度。
句子级语义分析:
1.浅层语义分析:格文法、语义角色标注。
2.深层语义分析
语法纠错:
常见算法:
1.规则引擎:定义语法规则,如Subject-Verb-Object(SVO)结构、词性标注等。 2.将错误句子与语法规则进行比较,找到违反规则的部分。 3.根据规则修正错误部分,生成正确的句子。
2.统计模型:利用大量文本数据中的语法规律来检测和修正语法错误
3.深度学习:利用深度学习模型(如 RNN 或 Transformer)来检测和修正语法错误
知识图谱:
定义:
它以符号形式结构化地描述了物理世界中的概念及其相互关系。知识图谱的基本组成形式为<实体,关系,实体>的三元组,实体间通过关系相互联结,构成了复杂的网状知识结构。
主要研究方向:
知识表征学习(Knowledge Represent Learning, KRL)、知识获取(Knowledge Acquisition)、时序知识图谱(Temporal Knowledge Graph, TKG)和应用(Knowledge-aware Applications)。
应用:
知识图谱与自然语言处理是相互依赖的。知识图谱可以提供对实际世界的知识支持,帮助自然语言处理技术更好地理解和处理语言信息。自然语言处理技术可以用来构建和维护知识图谱,提高知识图谱的质量和可用性。因此,知识图谱与自然语言处理技术的融合将为更多应用场景提供更强大的支持。
大语言模型:
NLP和大模型之间存在密切的关系。大模型是指参数数量庞大的神经网络模型,如BERT(Bidirectional Encoder Representations from Transformers)、GPT(Generative Pre-trained Transformer)等。这些大模型在自然语言处理任务中取得了显著的成果。
NLP任务通常需要对大规模的文本数据进行处理,例如文本分类、命名实体识别、情感分析、机器翻译等。传统的基于规则的方法和小规模的机器学习模型往往无法捕捉到文本的复杂结构和语义,因此在处理大规模数据和复杂任务时表现欠佳。
大模型通过使用大量的参数和深度神经网络架构,能够学习到更丰富的语义信息和文本特征。这些大模型能够从大规模的无标签数据中进行预训练,学习到通用的语言表示。然后,使用有标签数据对这些模型进行微调,以适应特定的NLP任务。大模型能够处理复杂的句法和语义关系,提供更准确的预测和更高的性能。
因此,NLP和大模型相互促进和补充,大模型为NLP提供了强大的表示学习能力,而NLP任务的需求也推动了大模型的发展和改进。大模型和NLP的结合为我们提供了更先进和更精确的自然语言处理技术。
Transformer:
Transformer是一种用于自然语言处理(NLP)和其他序列到序列(sequence-to-sequence)任务的深度学习模型架构,它在2017年由Vaswani等人首次提出。Transformer架构引入了自注意力机制(self-attention mechanism),这是一个关键的创新,使其在处理序列数据时表现出色。
机器学习:
概念:
是研究计算机模拟人类的学习活动,获取知识和技能的理论和方法,改善系统性能的学科
机器学习的基本原理:
-
建立模型:设计计算机可以自动“学习”的算法
-
训练:用数据训练算法模型(算法从数据中分析规律)
-
预测:利用训练后的算法完成任务(根据学习的规律为未知数据进行分类和预测)
机器学习的学习任务:
-
回归(regression):根据结果索取规律。其中线性回归类似于的关系,根据数据选取误差更小的值;非线性回归最常用的是逻辑回归--假定y只有0和1两种取值,x经过非线性函数在y轴上的投射是在0和1之间的二项分布,同时调整待定系数减小残差。
-
聚类(clustering):无监督学习的一种,就是把物理对象或抽象对象的集合分组为由彼此类似的对象组成的多个类的分析过程。换句话说,就是将不同事物归纳总结为不同的类,如把各式面条、馒头统称为面食。典型的算法有 K-means算法。
-
分类:有监督学习两大应用之一,对数据分进行分类,把它们分到已知的每一个类别。
-
无论是分类还是回归,都是想建立一个预测模型 ,给定一个输入 , 可以得到一个输出 : 不同的只是(对于输出)在分类问题中, 是离散的; 而在回归问题中是连续的。
机器学习的方式:
有监督学习:用带有'标准答案'的数据,即有输入及标准输出的数据训练模型,然后对未知数据进行预测.具体有回归、分类和排序
无监督学习:使用未知的训练样本解决模式识别中的问题,如聚类
#模式识别
概念:通过计算机模仿人脑对现实世界各种事物进行描述、分类、判断和识别的过程
模式即为识别的对象,例如声音,文字,气味等等
解决问题:根据样本的特征对样本进行分类
具体方法分为基于知识的识别(专家系统)与基于数据的识别(ANN),也可基于训练样本分类是否已知分为有监督的和无监督的识别
与机器学习的区别与联系:都通过训练样本解决相关问题;模式识别侧重根据已有特征统计进行分类、预测,机器学习侧重寻找数据相互关系,学习,进行分类、预测。
半监督学习:通常结合使用少量的已标记实例与大量的未标记数据的方法
强化学习:是一种通过模拟大脑神经细胞中的奖励信号来改善行为的机器学习方法
深度学习:模仿人脑的工作原理,通过构建和训练多层神经网络来处理和解释复杂的数据的方法
#深度学习的基础——神经网络:
概念:神经网络是一种模拟人脑的神经网络以期能够实现类人工智能的机器学习技术
神经元模型:包含输入输出与计算,注意权值、激活函数、以及求和等运算以及其可以矩阵形式表达
单层神经网络:负责输入的节点构成输入层,负责输出和运算的节点构成计算层,只有一层计算层的网络称为单层神经网络。
双层神经网络:比单层神经网络多一个计算层,具有非常好的非线性分类效果,但计算量繁复
多层神经网络:多计算层,预训练、微调大幅度减少参数调整时间,也被称为深度学习
机器推理
概念:
是指基于已有知识对未见问题进行理解和推断,并得出问题对应答案的过程
解决问题:
(1)如何对输入进行理解和表示?
对于输入的理解和表示,NLP 领域已经积累了大量的研究,包括词袋(Bag-of-Word)模型、句法分析(Syntactic Parsing)模型、词嵌入(Word Embedding)模型和句子嵌入(Sentence Embedding)模型等。
(2)如何定义知识?
对于知识的定义,不仅开放/特定领域的知识图谱和常识图谱属于“知识”的范畴,目前被广泛研究和使用的预训练模型同样可以看做是知识。这是因为预训练模型的本质就是将每个单词在海量文本中的上下文存储在模型当中。Facebook 的工作[2]也从实验角度证明了现有预训练模型对知识图谱和常识知识的覆盖。
(3)如何抽取和表示与输入相关的知识?
对于知识的提取和表示,基于知识图谱的模型通常基于实体链接的结果从知识图谱中找到与输入相关的知识,并采用知识嵌入(Knowledge Embedding)的方式对其进行编码和建模。相比之下,基于预训练模型的知识提取则对应了使用预训练模型对输入文本进行编码的过程。
(4)基于对输入及其相关知识的理解,如何推断出输入对应的输出?
对于基于输入及其相关知识进行推断,不同的任务通常采用不同的推断算法。例如,在语义分析任务中,推断过程对应了生成语义表示的算法。在基于预训练模型的微调方法中,推断过程对应了已有预训练模型之上的任务相关层。(多层神经网络)