Bootstrap

文献阅读 7.26

一、文献阅读

文献1 《Toward Open Set Recognition》

在这里插入图片描述

阅读笔记

1.开集识别核心:测试集中出现过训练集中没出现的样本类别。
2.正常的样本都正常,不正常的样本都各有各不正常。
3.形式化表示开放度
在这里插入图片描述(值介于0%和100%之间)取平方根,开放性随着类的数量的增加而逐渐增加
4.开集识别问题的潜在解决方案,必须针对未知类以及已知类进行优化。一般的开集多类解决方案,必须能够将输入标记为已知类之一或未知类。
5.开集识别中,评估的关键是操作阈值的定义,所有分类分数必须达到或超过才能视为匹配。(这一想法不仅仅局限于人脸识别)
6.任何开放集问题的另一个问题是,训练既高度不平衡,又非常不完整(尤其是在检测的情况下)。不平衡的数据通常会导致负面的过度。重采样并不能真正解决这个问题,而开集识别中固有的不平衡性提出了二进制分类器无法轻松克服的问题。
7.我们主要感兴趣的是,从更大的“负样本”库中识别少量的阳性样本。考虑这样一种情况:分类器在100个阳性测试样本中,返回一个真阳性,在100000个阴性测试样本中,返回零个假阳性。该分类器在该测试中的准确率为99.9%,尽管它本质上是一个“否”分类器。
在这里插入图片描述

文献2 《Recent Advances in Open Set Recognition: A Survey》

在这里插入图片描述

阅读笔记

四个阶级的基本类别:
(1)已知类(KKC),即具有明显标记的正训练样本的类(也用作其他KKC的负样本),甚至具有相应的边信息,如语义/属性信息等;
(2)已知未知类(KUC),即标记为负的样本,不一定分组为有意义的类,例如背景类、宇宙类等;
(3)未知的已知类(UKCs),即训练中没有可用样本的类,但在训练中有可用的边信息(例如语义/属性信息);
(4)未知未知类(UUC),即在训练期间没有任何关于它们的信息的类:在训练期间不仅看不见,而且没有旁侧信息(例如语义/属性信息等)。

1.开集识别描述了这样一种场景,即在测试中出现训练中看不到的新类(UUC),并且要求分类器不仅准确地对known known classes(已知分类,KKC)进行分类,而且有效地处理UUC。因此,当测试样本来自某个UUC时,分类器需要有相应的拒绝选项。
2.UKC和UUC之间的主要区别在于其辅助信息是否可用。
3.传统分类只考虑KKC
4.下图比较了传统分类和开集识别。
在这里插入图片描述
图(a)表示原始数据集的分布,包括KKCs 1,2,3,4和UUCs5.6,其中KKC在训练和测试期间出现,而UUC可能在测试期间出现或不出现。图(b)显示了通过传统分类方法获得的每个类别的决策边界,当UUCs5.6在测试期间出现。图(c)描述了开集识别,其中决策边界限制了KKCs 1,2,3,4的范围,为UUC保留空间5.6.通过这些决策边界,来自某些UUC的样本被标记为“未知”或被拒绝,而不是错误分类为KKC
开集识别及其相关任务之间的差异
在这里插入图片描述

文章中的开放度公式:

开放度公式

关于现有OSR方法如何链接的全局图片

在这里插入图片描述

根据建模形式,这些模型可以进一步分为四类:
判别模型的角度来看,基于ML(TML)的传统方法和基于深度神经网络(DNN) 的方法;
生成模型的角度来看,基于实例非实例 生成的方法。对于每个类别,我们通过关注其相应的代表性作品来回顾不同的方法。

传统的机器学习方法
(例如支持向量机、稀疏表示、最近邻等)通常假设训练和测试数据来自相同的分布。然而,这种假设在OSR中不再成立。
支持向量机(SVM)已成功用于传统的分类/识别任务。然而,当UUC在测试期间出现时,其分类性能将显著下降,因为在闭集假设下,它通常会划分KKC的占用空间。一旦UUC的样本落入为一些KKC划分的空间,这些样本将永远无法正确分类。

基于深度神经网络的OSR模型
由于强大的学习表示能力,深度神经网络(DNN)在视觉识别、自然语言处理、文本分类等各种任务中获得了显著的优势。深度神经网络通常遵循典型的SoftMax交叉熵分类损失,这不可避免地会产生归一化问题,使其固有地具有闭集性质。因此,DNN在处理UUC样本时往往会做出错误的预测,甚至过于自信。研究表明,DNN容易受到“愚弄”和“垃圾”图像的攻击,这些图像在视觉上远离所需的类别,但会产生较高的置信度分数。

OpenMax有效地解决了愚弄垃圾和不相关的开放集图像的识别挑战,但它无法识别敌对图像,这些图像在视觉上与训练样本无法区分,但旨在使深度网络产生高置信度但回答不正确。虽然OpenMax比SoftMax提供的系统对传统攻击的脆弱性更低,但它同样容易受到直接用于深度表示的更复杂的对抗生成技术的影响。因此,对抗性样本仍然是开放集识别的一个严重挑战。

对抗式学习(AL)作为一种新技术取得了显著的成功,它采用了生成模型和判别模型,其中生成模型学习生成可以欺骗判别模型作为非生成样本的样本。使用条件生成对抗网络(GAN)合成UUC的混合物,提出了生成OpenMax(G-OpenMax)算法,该算法可以对生成的UUC进行显式概率估计,使分类器能够根据KKC和生成的UUC的知识定位,决策裕度。借用典型GAN网络中的生成器,以生成与目标样本高度相似的合成样本作为自动负集,同时重新设计了鉴别器,以与UUC一起输出多个类。

数据集拆分
在这里插入图片描述
首先将数据集划分为训练集和测试集,然后将训练集进一步划分为拟合集和验证集,其中包含“闭集”模拟和“开集”模拟。首先将数据集分为拥有KKCs的训练集和分别包含KKCs和UUCs的测试集。训练集中出现的2/3个KKCs被选为“KKCs” 模拟,而其余为“UUCs”模拟。
1、随机选择Ω 作为KKC的不同类,用于从相应的数据集进行训练;
2、在每个KKC中随机选取60%的样本作为训练集;
3.从步骤2中选择剩余的40%样本,并从其他类别中选择样本,不包括Ω KKCs作为测试集;
4、随机选择[(2/3)Ω + 0.5)]类作为“KKCs”用于从训练集进行拟合,而其余类作为“UUCs”用于验证;
5、从每个“KKC”中随机选取60%的样本作为拟合集F;
6.选择步骤5中剩余40%的样本作为“闭合集”模拟,而步骤5中剩余40%的样本和“UUCs”中的样本作为“开放集”模拟;
7、用F训练模型,并在V上进行验证,然后找到合适的模型参数和阈值;
8.使用微F-测度评估具有5个随机类划分的模型。

1.随着开放性的增加,虽然基于阈值的方法(如W-SVM、PISVM、SROSR、EVM)在某些数据集上表现良好,但在其他数据集上也存在性能显著下降的情况(例如,W-SVM在字母上表现良好,而在PENDIGITS上表现显著不佳)。这主要是因为其决策阈值仅基于KKC的知识进行选择,其中一旦UUC的样本落入为一些KKC划分的空间,就会产生OSR风险。相比之下,由于HDP的数据自适应特性,CD-OSR可以有效地对测试中出现的UUC进行建模,使其目前在大多数数据集上实现了更好的性能,尤其是对于字母和数字。

2.与其他方法相比,OSNN的性能在标准差方面波动很大,尤其是对于字母,这可能是因为NNDR策略使其性能严重依赖于相应数据集的分布特征。此外,由于1-vs-集中的开放空间仍然是无界的,我们可以看到其性能随着开放性的增加而急剧下降。作为单类分类器的基准,W-OSVM在闭集场景下工作良好。然而,一旦场景转向开放集,其性能也会显著下降。

3.基于HDP的数据自适应特性,CD-OSR目前与其他方法相比表现相对较好。然而,CD-OSR也受到HDP本身的限制,例如难以将其应用于高维数据、高计算复杂度等。至于其他方法,它们也受到所采用的底层模型的限制。例如,由于SRC不能很好地处理LETTER,因此SROSR在该数据集上的性能较差。使用EVT的方法,如W-SVM、PI-SVM、SROSR、EVM,一旦KKC和UUC中的稀有类一起出现在测试中,它们可能会面临挑战。此外,还需要指出的是,本部分仅在所有常用数据集上对这些算法进行了比较,这些数据集可能在某种程度上无法完全表征其行为。

在这里插入图片描述
在这里插入图片描述
观察结果是:
1.首先,所有方法在MNIST上的性能都是可比的,这主要是因为在MNIST上的结果几乎是饱和的。其次,与早期的方法(如SoftMax、OpenMax、GOpenMax和OSRCI)相比,CROSR和C2AE目前在基准数据集上实现了更好的性能。其成功的主要原因可能是:对于CROSR,用于联合分类和重建KKCs的训练网络使为KKCs学习的表示更具区分性和紧密性(使KKCs获得更紧密的分布区域);对于C2AE,将OSR划分为闭集分类和开集识别可以避免在由SoftMax分数修改的单个分数下同时执行这两个子任务(找到这样一个单分数度量通常非常具有挑战性)。

2.作为一种最先进的基于实例生成的OSR方法,OSRCI目前在几乎所有上述数据集上都没有赢得CROSR和C2AE(两种最先进的基于深度神经网络的OSR方法),这似乎有点违背直觉,因为OSRCI从UUC获得额外信息。但这恰好表明(从另一个侧面)基于实例生成的方法的性能仍有更大的改进空间,值得进一步探索,同时也表明了CROSR和C2AE中策略的有效性。

文献3 《Breaking away from labels: The promise of self-supervised machine learning in intelligent health》

在这里插入图片描述

SUMMARY

医学正在经历前所未有的数字化变革,大量的健康数据正在生成、收集和管理,从医院(如重症监护病房[ICU])到个人生成的数据(可穿戴设备)。针对(不同)训练目的,对这些数据进行注释,以便为“模式识别”的深度学习模型提供信息。在这里,我们讨论了自监督学习(SSL)应用于高分辨率健康信号的最新结果。这些示例利用未标记的数据,来学习有意义的表示,这些表示可以概括为由于高负担或相关成本而无法收集,或根本无法收集基本事实的情况。当今深度学习最突出的瓶颈是访问标记的、精心管理的数据集。健康信号的自我监督,为通过“可以转移到低资源环境和任务的通用模型 ”消除数据孤岛开辟了新的可能性。

笔记&摘要

目前绝大多数医学研究都集中在临床数据(实验室、成像、生命体征等),而普通人每年只看五次左右的医生;可穿戴传感和移动计算越来越多的采用,为在实验室和医院之外纵向收集健康数据创造了新途径。全世界数百万人使用此类设备来跟踪他们的身体活动和睡眠,具有越来越复杂的预测能力的传感器,用于监测这些人类的行为。许多机器学习(ML)任务取得了令人印象深刻的性能,从图像中的物体识别到在乳腺癌筛查方面优于专家。

特别是在医学领域,错误的预测可能会产生严重后果,此类系统的推出和采用,因为算法的可解释性,而遇到了阻力。可穿戴和移动设备监控我们在现实世界中的活动,通过跟踪我们的睡眠、步履、饮食和工作习惯,他们对我们日常健康中最重要的组成部分有了全面的了解。

深度监督学习需要相当数量的标签和样本才能实现良好的性能。选取数据集、标签是经验问题,根据目前的情况,监督模型比自监督模型准确性更高,到达稳定期更快。健康信号领域的第一个有效的无监督研究,采用了word2vec的成功范例,并报告了与监督模型相当的结果。

直接从数据中学习监督,这被称为自监督(或预测)学习(SSL))。(关于无监督学习和SSL的术语有点模糊。无监督学习用于各种模型,从自动编码器和玻尔兹曼机器到主成分和聚类分析。SSL可以被视为无监督学习的子集,其中监督信号直接从数据中学习。然而,这两个术语有时可以互换使用。)迁移学习是SSL的自然应用。
在这里插入图片描述
在这里插入图片描述

SimCLR首次实现了与监督模型相当的性能,提出了一种用于视觉表示的双网络训练方法。生成性对抗网络(GAN),其目标来自博弈论原则,以及两个网络在游戏中相互竞争以生成更真实的数据。SSL模型分为三类:生成型(例如,自动编码器)、对比型(例如,SimCLR)和生成型对比型(例如,GANs或对抗型自动编码器)。这些类别之间的主要差异是客观的,从重建和对比损失到分布差异。

虽然每个人都可以下载现成的预训练模型来进一步定制视觉或语言任务,但健康信号并非如此。Step2Heart,一种自监督模型,该模型利用现代可穿戴设备的多模态数据来学习有意义的表示,它概括了转移学习的几种结果。该模型将活动数据映射到未来心率(HR)响应(隐式应用时间箭头原理),并可用作可穿戴数据的特征提取器。文章中的方法结合了,自我训练(提取未标记和标记数据集的知识,同时允许数据扩充)和多任务自我监督(通过预测输入的扭曲版本来学习稳健的信号级表示)。与监督方法相比,SelfHAR使用的标记数据减少了10倍,使用相同数量的模型参数,性能(F1分数)提高了12%。

心电图数据在医疗环境中无处不在,在苹果手表等个人设备中也越来越常见。Kiyasseh等人提出了CLOCS,它基于两个关键观察结果利用了ECG导联的时间和空间不变性:持续时间较短的相邻ECG段将继续共享上下文,来自不同导联(同时)的记录将反映相同的心脏功能,从而共享上下文。一个新的想法是将正配对定义为属于同一患者的转换实例的表示。通过这样做,该模型隐式地为每个患者个性化学习的表征。在此驱动下,他们设计了一个新的对比目标,其性能优于监督和一般自我监督方法(AUC方面),例如BYOL,最显著的是,只有25%的标记训练数据。

除了提高准确性外,自我监督还有可能降低医生的工作量 。预测性临床工具可以缓解一些压力,尤其是在日益老龄化的人群中。自监督模型往往通过一小部分标记数据获得显著的传输结果。SSL是一个多步骤过程,包括第一步生成增强,然后训练模型,最后微调目标数据集,这使得整个管道比简单的端到端监督模型更复杂。

这篇文章展示了,直接从非结构化数据中,学习有意义表示的模型的潜力,并介绍了生物医学信号领域的一些最新结果。吴恩达最近表示,由于传感器、协议或数据收集方法的差异,概念验证模型和实际部署之间存在相当大的差距。

在Step2Heart或最近的许多工作中,序列转移学习,可能是验证学习表示,可以在不同任务中推广,同时(预训练)是具有标记效率的。接下来的步骤应侧重于演示这些模型如何在不断变化的环境(例如,不同的医院、人群或设备)中同样出色地运行。高质量的标记数据集,是将ML进展转移到医疗保健等关键领域的主要瓶颈,SSL似乎是一个可行的解决方案。

;