AI视野·今日CS.CV 计算机视觉论文速览
Thu, 24 Jun 2021
Totally 56 papers
👉上期速览✈更多精彩请移步主页
Interesting:
📚动手学习深度学习, 最新版,风靡世界的深度学习实践教材!!(from 亚马逊)
📚*****PERMUTATOR, 基于MPL的可交换视觉识别模型 (from 新加坡国立)
文章中提出的可交换MLP层,包含了三个编码分支分别处理长宽和通道方向,输出进行融合与全连接。
📚****InFashAIv1, 时装图像到文本的数据集。(from Ai4Innov)
📚***多模态多视角多标签数据集, 包含了多视角图像、文字描述、名称和功能。来自外观专利数据库的数据。(from 广东省知识产权大数据重点实验室)
code:http://iplab.gpnu.edu.cn/kfjl/kfsjk.htm
📚Open Image V5, 文字检测部分的数据集(from intel)
https://github.com/openvinotoolkit/training_extensions
📚表面的神经渲染方式, (from 以色列魏兹曼科学院)
Volume Rendering of Neural Implicit Surfaces
📚大规模摄影风格数据集Photozilla, 包含了多种摄影风格数据集,可以用于风格表示embedding学习。(from 新加坡技术设计大学)
场景类别classes:
Aerial Architecture Event Fashion Food Nature Sports Street Wedding Wildlife
Abstract Astrophotography Automotive Landscape Lifestyle Long Exposure Panorama Portrait Travel Underwater
code: https://trisha025.github.io/Photozilla/
📚Trinity 空间数据库的零代码平台, (from apple)
Daily Computer Vision Papers
Gradient-Based Interpretability Methods and Binarized Neural Networks Authors Amy Widdicombe, Simon J. Julier 二值化神经网络BNN有可能彻底彻底改变深度学习在边缘计算平台中进行的方式。但是,尚未评估可解释性方法对这些网络的有效性。 |
Multi-Class Classification of Blood Cells -- End to End Computer Vision based diagnosis case study Authors Sai Sukruth Bezugam 血基疾病的诊断往往涉及识别和表征患者血液样本。检测和分类血细胞亚型的自动化方法具有重要的医疗应用。自动化的医学图像处理和分析为医疗诊断提供了强大的工具。在这项工作中,我们基于外轮廓的形态特征来解决白细胞分类问题。这项工作我们将探索一组预处理和分割颜色的分割,形态处理,轮廓化算法以及一组特征提取方法角探测算法和梯度Hog的直方图,可以识别的维度减少算法主要成分分析PCA通过各种无人监督的K最近邻居和监督支持向量机,决策树,线性判别分析,二次判别分析,幼稚贝叶斯算法,不同类别的白细胞对嗜酸性粒细胞,淋巴细胞,单核细胞和中性粒细胞。我们甚至迈出了一步探索各种深度卷积神经网络架构SQeezent,MobileNetv1,MobileNetv2,IncepionNet等,而无需预处理分段和预处理。我们希望探索许多算法来识别具有最小时间复杂度和低资源需求的强大算法。根据对自动血细胞分类的要求,这项工作的结果可以是选择算法的提示。 |
Generative Self-training for Cross-domain Unsupervised Tagged-to-Cine MRI Synthesis Authors Xiaofeng Liu, Fangxu Xing, Maureen Stone, Jiachen Zhuo, Reese Timothy, Jerry L. Prince, Georges El Fakhri, Jonghye Woo 基于自培训的无监督域适应UDA显示出解决域移位问题的可能性,当在源域中应用训练的深度学习模型到未标记的目标域时,可以解决域移位。但是,虽然自我训练UDA已经证明了其对歧视性任务的有效性,例如基于Softmax离散直方图的可靠的伪标签选择,但是对于生成任务(例如图像合成)的自我训练UDA并不完全调查。在这项工作中,我们提出了一种新的生成自我训练GST UDA框架,具有连续值预测和跨域图像合成的回归目标。具体地,我们建议用不确定性面具过滤伪标签,并量化具有实际变分贝叶斯学习的生成图像的预测置信度。通过基于圆形的替代优化方案实现快速测试时间适应。我们在标记上验证了我们的框架,以Cine磁共振成像MRI合成问题,其中来自不同扫描仪或中心的源域和目标域中的数据集。进行了广泛的验证,以验证我们对受欢迎的对抗培训UDA方法的框架。结果表明,与新靶领域的试验科目的标记MRI的GST,与普发的培训UDA方法相比,在新的靶域中的标记的测试对象MRI改善了合成质量。 |
Adapting Off-the-Shelf Source Segmenter for Target Medical Image Segmentation Authors Xiaofeng Liu, Fangxu Xing, Chao Yang, Georges El Fakhri, Jonghye Woo 无监督的域适应UDA旨在将从标记的源域中学习的知识转移到未标记的和未经看不见的目标域,这通常在两个域的数据上培训。然而,由于数据存储或隐私问题,通常有限地访问适应阶段的源域数据。为了缓解这一点,在这项工作中,我们针对分段进行源免费UDA,并建议将在源域中预先培训的货架分段模型调整到目标域,具有自适应批量明智归一化统计统计调整框架。具体地,域特定的低阶批量统计,即均值和方差,逐渐适应指数衰减方案,而我们的优化明确强制强制实施域共享高阶批次统计数据,即缩放和移位参数的一致性。客观的。首先从中自适应地测量每个信道的可转换性,从而平衡每个信道的贡献。此外,提出的源免费UDA框架与无监督的学习方法正交,例如,自熵最小化,从而可以简单地添加在我们的框架之上。关于BRALS 2018数据库的广泛实验表明,我们的源免费UDA框架优于跨子类型UDA分段任务的现有源放宽UDA方法,并与源数据的监督UDA方法相比,对跨模型UDA分段任务产生了可比的结果。 |
A Circular-Structured Representation for Visual Emotion Distribution Learning Authors Jingyuan Yang, Ji Lie, Leida Li, Xiumei Wang, Xinbo Gao 目视情感分析VEA最近引起了越来越关注的社交网络上的图像的普遍性。由于人类的情绪是暧昧和主观的,因此在标签分发学习LDL范例中而不是单个标签分类任务时,更合理。与其他LDL任务不同,在心理学理论中所示的情绪与其中的独特特征之间存在内在关系。受到这一点的启发,我们提出了一个良好的循环结构表达,以利用现有的视觉情感分配学习知识。具体而言,我们首先构建情感圈来统一其中的任何情绪状态。在拟议的情感圈上,每个情绪分布都是用情感矢量表示,这是用三个属性定义的,即情绪极性,情绪类型,情绪强度以及两个属性,即相似性,添加性。此外,我们设计了一种新颖的逐行循环PC损失,以惩罚预测的情绪矢量之间的异化,并以粗糙的方式标记一个,这进一步以情感特定方式提高了学习过程。广泛的实验和比较在公共视觉情绪分布数据集上进行,结果表明,所提出的方法优于现有技术的状态。 |
FusionPainting: Multimodal Fusion with Adaptive Attention for 3D Object Detection Authors Shaoqing Xu, Dingfu Zhou, Jin Fang, Junbo Yin, Zhou Bin, Liangjun Zhang 准确地检测3D中的障碍是自主驾驶和智能交通的重要任务。在这项工作中,我们提出了一般的多模式融合框架融合,以融合2D RGB图像和3D点云,以提高3D对象检测任务。特别是,FusionPainting框架由三个主要模块组成多模块语义分段模块,基于自适应的语义融合模块和3D对象检测器。首先,基于2D和3D分段方法获得用于2D图像和3D LIDAR点云的语义信息。然后,来自不同传感器的分段结果基于基于所提出的语义融合模块,自适应地融合。最后,用熔融语义标签绘制的点云被发送到3D检测器,以获得3D异议结果。通过将其与三种不同的基线进行比较,在大规模的NUSCENES检测基准上验证了所提出的框架的有效性。实验结果表明,与仅使用点云的方法相比,融合策略可以显着提高检测性能,以及使用点云的方法仅绘制具有2D分段信息的方法。此外,所提出的方法优于NUSCENS测试基准上的其他技术方法。 |
How Well do Feature Visualizations Support Causal Understanding of CNN Activations? Authors Roland S. Zimmermann, Judy Borowski, Robert Geirhos, Matthias Bethge, Thomas S. A. Wallis, Wieland Brendel 一种广泛使用的方法来了解深度卷积神经网络的内部工作,通过激活最大化来可视化单元响应。通过激活最大化的特征可视化被认为为人类提供有关导致待激活单元的图像特征的精确信息。如果这确实是真的,这些合成图像应该使人类能够预测干预的效果,例如遮挡图像的某些贴片,狗的头部改变单位的激活。在这里,我们通过询问人类来预测两个平方闭塞引起单位激活的更大变化来测试这一假设。具有专家的大规模众群实验和测量结果表明,平均而言,Olah等人的激活功能可视化。 2017年确实帮助人类在此任务67 PM 4精度基线表现而无需任何可视化为60 PM 3。然而,它们不提供其他可视化的任何显着优势,例如例如。数据集样本,其产生类似的性能66 PM 3至67 PM 3精度。我们共同努力,提出了一个客观的心理物理任务,以量化单位级别解释性方法对人类的益处,并且没有发现特征可视化提供人类,而不是简单的替代可视化。 |
Fine-Tuning StyleGAN2 For Cartoon Face Generation Authors Jihye Back 最近的研究表明在无监督的图像中对图像I2I翻译中的显着成功。但是,由于数据的不平衡,各个域的学习联合分布仍然非常具有挑战性。尽管现有模型可以产生现实的目标图像,但是难以保持源图像的结构。此外,在多个域中的大数据上培训一台生成模型需要大量的时间和计算机资源。为了解决这些限制,我们向图像翻译方法提出了一种新颖的图像,通过FineTuning Stylegan2预磨料模型来生成目标域的图像。 Stylegan2模型适用于无常用的I2I在不平衡数据集中的翻译,它是高度稳定的,产生现实图像,甚至在使用简单的微调技术时从有限的数据中正确学习。因此,在本文中,我们提出了新的方法来保留源图像的结构并在目标域中产生现实图像。代码和结果可用 |
Euro-PVI: Pedestrian Vehicle Interactions in Dense Urban Centers Authors Apratim Bhattacharyya, Daniel Olmeda Reino, Mario Fritz, Bernt Schiele 准确预测行人和自行车司机路径是对密集城市环境中可靠的自主车辆的发展的一体化。车辆和行人或骑自行车的互动对交通参与者的轨迹产生了重大影响。停止或转动以避免碰撞。尽管最近的数据集和轨迹预测方法培养了自主车辆的发展,但是模型的车辆行人自行车交互的数量是稀疏的。在这项工作中,我们提出了欧元PVI,一个行人和自行车轨迹的数据集。特别是,与现有数据集相比,我们的数据集与密集的城市情景中的更多样化和复杂的交互相同。为了解决预测具有密集相互作用的未来轨迹的挑战,我们开发了一个联合推理模型,这些模型在城市场景中的代理商学习了一个表现力的多模式共享潜在空间。这使我们的联合Beta CVAE方法能够更好地模范未来轨迹的分布。我们在NUSCENES和欧元PVI数据集上实现了最先进的结果,证明了捕获自助式车辆与行人骑自行车骑士之间的相互作用的重要性。 |
Alias-Free Generative Adversarial Networks Authors Tero Karras, Miika Aittala, Samuli Laine, Erik H rk nen, Janne Hellsten, Jaakko Lehtinen, Timo Aila 我们观察到,尽管它们的分层卷积性质,典型的生成对抗网络的合成过程取决于以不健康的方式坐标。这表明了本身,例如,看起来将被粘合到图像坐标而不是描绘对象的表面。我们将根本原因追溯到导致发电机网络中的混叠的粗心信号处理。将网络中的所有信号解释为连续,我们普遍适用,小型架构更改,保证不需要的信息无法泄漏到分层合成过程中。由此产生的网络与风格的FID匹配,但在其内部表示中急剧差异,即使在子像素尺度也是完全的转换和旋转。我们的结果为更适合视频和动画的生成模型铺平了道路。 |
Transformer Meets Convolution: A Bilateral Awareness Net-work for Semantic Segmentation of Very Fine Resolution Ur-ban Scene Images Authors Libo Wang, Rui Li, Dongzhi Wang, Chenxi Duan, Teng Wang, Xiaoliang Meng 来自非常精细的分辨率VFR城市场景图像中的语义分割在包括自主驾驶,土地覆盖分类和城市规划的几个应用场景中起着重要作用,但是,VFR图像中包含的巨大细节严重限制了现有深度的潜力学习方法。更严重的是,对象的规模和外观的相当大变化进一步恶化了那些SE Mantic分段方法的代表能力,导致相邻物体的混乱。寻址是起诉代表了遥感社区中有希望的研究领域,为场景水平景观模式分析和决策铺平了道路。在此稿件中,我们提出了一个双边意识网络Banet,它包含依赖路径和纹理路径,以完全捕获VFR图像中的长距离关系和细粒细节。 SENECLICY,依赖路径是基于其余的,这是一个新型变压器骨干,内存有效的多头自我注意,而纹理路径建立在堆叠的沟通操作之上。此外,使用线性关注机制,旨在有效地融合依赖性功能和纹理功能。在三个大型城市场景图像分割数据集上进行的广泛实验,即ISPRS Vaihingen DataSet,ISPRS Potsdam DataSet和Uavid DataSet,展示了我们的弓箭的有效状态。具体而言,在Uavid数据集上实现了64.6 miou。 |
Fairness in Cardiac MR Image Analysis: An Investigation of Bias Due to Data Imbalance in Deep Learning Based Segmentation Authors Esther Puyol Anton, Bram Ruijsink, Stefan K. Piechnik, Stefan Neubauer, Steffen E. Petersen, Reza Razavi, Andrew P. King 人工智能AI中公平的主题是指基于种族和性别等人口统计特征的潜在偏置的AI算法,以及解决这种偏差的算法。迄今为止的大多数申请已经在计算机愿景中,尽管医疗保健的一些工作已经开始出现。近年来,使用心MR分割中的深度学习DL的使用导致了令人印象深刻的结果,并且这些技术开始被翻译成临床实践。但是,没有工作尚未调查此类模型的公平性。在这项工作中,我们对种族性别群体进行了这种分析,重点关注培训数据不平衡的问题,使用培训和评估来自英国BIOBANK数据集的Cine短轴心脏MR数据,由6个来自6的5,903个科目不同的种族群体。我们在不同种族群之间发现骰子性能的统计学意义差异。为了减少种族偏见,我们调查了三种策略1分层批量采样,其中分层采样,以确保种族集团2个公平Meta学习的平衡,其中DL分类器培训以分类种族并与分段进行分类和联合优化。模型和3个保护组模型,其中每个种族组培训不同的分段模型。我们还将结果与我们有完美平衡数据库的场景进行了比较。评估公平性,我们使用了平均骰子值的标准偏差SD和偏斜错误比Ser。我们的结果表明,种族偏见源于使用不平衡的培训数据,并且所有提议的偏见缓解策略都改善了公平性,并且使用受保护的组模型产生的最佳SD和Ser。 |
Co-advise: Cross Inductive Bias Distillation Authors Sucheng Ren, Zhengqi Gao, Tianyu Hua, Zihui Xue, Yonglong Tian, Shengfeng He, Hang Zhao 变形金刚最近被自然语言处理社区改编为基于卷积的基于卷积的神经网络,用于视觉学习任务。然而,它的至尊退化了培训数据量的不足,例如,想象成。为了使其成为实用的实用,我们提出了一种新的基于蒸馏方法来训练视觉变压器。与以前的作品不同,只提供沉重的卷积教师,我们介绍了具有不同建筑感应偏见的轻量级教师,例如,卷积与共同建议学生变压器。关键是,尽管它们在同一数据集中培训,但是在蒸馏过程中,这些教师具有不同的归纳偏见的教师才能达到不同的知识,并在蒸馏过程中提高学生的性能。配备这种交叉电感偏置蒸馏方法,我们的视觉变压器称为Civt擅长想象成在ImageNet上同一架构的所有先前变压器。 |
Vision Permutator: A Permutable MLP-Like Architecture for Visual Recognition Authors Qibin Hou, Zihang Jiang, Li Yuan, Ming Ming Cheng, Shuicheng Yan, Jiashi Feng 在本文中,我们呈现Vision Pervutator,概念简单和数据高效的MLP,如架构进行视觉识别。通过实现由2D特征表示所载的位置信息的重要性,与最近的MLP相同,类似于沿着扁平的空间尺寸对空间信息进行编码的模型,视觉置换器沿着具有线性投影的高度和宽度尺寸分别对特征表示进行分开。这允许视觉置换器沿一个空间方向捕获长距离依赖性,并且同时沿另一个方向保留精确的位置信息。然后以相互补充的方式聚集所得到的位置敏感输出,以形成感兴趣对象的表达表示。我们表明,我们的视力置入者是卷积神经网络CNN和视觉变压器的强大竞争对手。如果没有对空间卷积或关注机制的依赖,Vision Pervuferator在ImageNet上实现了81.5前1个精度,而无需额外的大规模训练数据,例如,ImageNet 22k使用25M可学习的参数,这比在相同型号的大多数CNN和视觉变压器上要好得多约束。在缩放高达88米时,它可以获得83.2顶级1精度。我们希望这项工作能够鼓励研究重新思考编码空间信息的方式,并促进MLP等模型的开发。代码可用 |
A new Video Synopsis Based Approach Using Stereo Camera Authors Talha Dilber, Mehmet Serdar Guzel, Erkan Bostanci 在今天的世界中,每个字段中产生的数据量在意外水平上增加。在越来越多的数据时,数据处理的重要性显着增加。我们的资源主题是在视频数据的处理中,在增加数据中具有重要位置,以及摘要视频的生产。在此资源的范围内,在创建视频摘要时开发了一种基于对象无监督学习的异常检测方法。通过使用该方法,将视频数据被处理为像素,结果被产生为视频段。过程流程可以简要概括如下。根据其类型检测视频上的对象,然后跟踪它们。然后,处理对象的跟踪历史数据,并且对对象类型训练分类器。由于此分类器,检测到对象的异常行为。视频段是通过处理包含异常行为的视频瞬间来确定的。通过从原始视频中提取检测到的视频段并将它们组合来创建视频摘要。我们开发的模型已经过测试和验证单个摄像头和双摄像头系统。 |
Open Images V5 Text Annotation and Yet Another Mask Text Spotter Authors Ilya Krylov, Sergei Nosov, Vladislav Sovrasov 大规模人类标记的数据集在创造高质量的深度学习模型方面发挥着重要作用。在本文中,我们为打开图像V5数据集提供文本注释。据我们所知,它是公开可用的文本注释中最大的。具有此注释我们培训了一个简单的掩码基于掩模的网络,还称为另一个掩码文本Spotter Yamts,它在ICDAR2013,ICDAR2015和总文本数据集的某些情况下实现了竞争性能或甚至优于现有技术的当前状态。文本专栏模型的代码可在线提供 |
Estimating the Robustness of Classification Models by the Structure of the Learned Feature-Space Authors Kalun Ho, Franz Josef Pfreundt, Janis Keuper, Margret Keuper 在过去的十年中,深度图像分类网络的发展主要是通过在标准化基准的分类准确性上搜索最佳性能的驱动。最近,这种重点通过模型稳健性的概念扩展,即模型对以前看不见的数据分布变化的概括能力。虽然已经引入了新的基准,如想象成C,但是已经引入了测量稳健性的属性,但是我们认为固定的测试集只能捕获可能的数据变化的一小部分,因此有限,并且容易产生新的过度收益的解决方案。为了克服这些缺点,我们建议直接从其学习特征空间的结构估计模型的稳健性。我们介绍了稳健的指标,通过训练有素的分类器内的潜在表示的无监督聚类获得,并与损坏的测试数据的模型性能显示出非常高的相关性。 |
3D human tongue reconstruction from single "in-the-wild" images Authors Stylianos Ploumpis, Stylianos Moschoglou, Vasileios Triantafyllou, Stefanos Zafeiriou 3D从单个图像重建是一项任务,它已经获得了计算机视觉社区的增加的兴趣,特别是由于它广泛使用了许多应用,例如现实的3D头像创作,构成不变性面部识别和面对幻觉。自90年代后期引入3D发生模型以来,我们目睹了旨在特别处理这项任务的研究爆炸。尽管如此,尽管从单个图像中的3D面部重建中的细节水平增加,主要归因于深度学习的进步,但诸如舌头的面孔的细粒和高度可变形的部件仍然存在于文献中的所有3D面部模型,尽管非常对于3D化身表示的真实性很重要。在这项工作中,我们首先展示了我们的知识,结束了最终培训的管道,可以用舌头准确地重建3D面。此外,我们通过引入针对3D舌表面产生量身定制的新型GaN方法使该管道在野生图像中稳健。最后,我们公开可向社区提供第一个多样化的舌头数据集,其中由5800个扫描为700人,在性别,年龄和种族背景上不同。正如我们在一系列广泛的定量和定性实验中展示,我们的模型被证明是坚固的并且即使在野外条件下也在不利地捕获3D舌结构。 |
A Label Management Mechanism for Retinal Fundus Image Classification of Diabetic Retinopathy Authors Mengdi Gao, Ximeng Feng, Mufeng Geng, Zhe Jiang, Lei Zhu, Xiangxi Meng, Chuanqing Zhou, Qiushi Ren, Yanye Lu 糖尿病视网膜病变博士仍然是最普遍的视觉障碍和工作年龄成年人不可逆转的失明的原因。由于深入学习DL的文艺复兴,基于DL的DR诊断已成为博士早期筛查和严重程度等级的有希望的工具。然而,培训深度神经网络DNN需要大量仔细标记的数据。在标记大量数据时,可能会引入嘈杂的标签数据,降低模型的性能。在这项工作中,我们为DNN提出了一种新的标签管理机制LMM,以克服嘈杂数据的过度。 LMM利用贝叶斯统计和时间加权技术中的最大后验概率图,选择性地校正不洁净数据的标签,逐渐净化培训数据并提高分类性能。综合噪声数据Messidor的综合实验我们收集的DR数据集和现实世界噪声数据动物10N证明了LMM可以提高模型的性能,优于现有技术的三种状态。 |
Deep unsupervised 3D human body reconstruction from a sparse set of landmarks Authors Meysam Madadi, Hugo Bertiche, Sergio Escalera 在本文中,我们提出了人体重建中的第一种深度无人监督方法,从稀疏的地标估计身体表面,所以被称为DeepMurf。我们应用一个去噪的autoencoder来估计缺失的地标。然后我们应用注意模型来估计地标的身体关节。最后,应用级联网络来重写重建主体的统计生成模型的参数。我们的拟议损失职能允许我们以无人监督的方式培训网络。结果四个公共数据集显示,我们的方法准确地将人体从现实世界Mocap数据中重建。 |
Instance-based Vision Transformer for Subtyping of Papillary Renal Cell Carcinoma in Histopathological Image Authors Zeyu Gao, Bangyang Hong, Xianli Zhang, Yang Li, Chang Jia, Jialun Wu, Chunbao Wang, Deyu Meng, Chen Li 乳头状P肾细胞癌RCC的组织学亚型,1型与2型,是必不可少的预后因子。 PRCC的两个亚型具有类似的模式,即乳头建筑,但具有一些微妙的差异,包括细胞和细胞层水平模式。然而,蜂窝和细胞层水平图案几乎不能通过大尺寸的组织病理学图像中的基于CNN基于CNN的模型来捕获,这使得直接将这些模型直接应用于这种细粒度的分类任务的障碍物。本文提出了一种基于事实的视觉变压器IV Vit,用于通过在分段的核周围裁剪从实例贴片中提取更精细的特征来了解PRCC亚型任务的组织病理学图像的稳健表示的鲁棒表示。所提出的IVIT将顶部K实例作为输入,并聚合它们通过位置嵌入层,等级嵌入层和多头多层自我注意模块来捕获蜂窝和细胞层水平模式。为了评估拟议框架的表现,邀请经验丰富的病理学家从1型和2型PRCC的整个幻灯片图像中选择1162个感兴趣区域。实验结果表明,该方法的性能比具有显着边距的现有CNN的模型更好。 |
Mutual-Information Based Few-Shot Classification Authors Malik Boudiaf, Ziko Imtiaz Masud, J r me Rony, Jose Dolz, Ismail Ben Ayed, Pablo Piantanida 我们介绍了几次拍摄学习的转置信息最大化蒂姆。我们的方法可以最大限度地提高查询功能与其标签预测之间的相互信息,以及基于支持集的监控损失。我们通过在分类准确性和相互信息最大化之间获得正式关系来激励我们的转换损失。此外,我们提出了一种新的交替方向求解器,其在基于梯度的优化上基本上速度推断出转导推论,同时产生竞争精度。我们还提供了基于Zangwill S理论和绑定优化参数的求解器的收敛性分析。 Tim推断是模块化它可以在任何基础训练特征提取器的顶部使用。遵循标准转换少量拍摄设置,我们的综合实验表明TIM在各种数据集和网络上显着优于现有技术的方法,同时在固定的特征提取器的顶部,在基本类上的简单交叉熵培训,而不诉诸复杂的元学习计划。它始终如一地在最佳性能的方法上提高了2和5的提高,而不仅仅是所有良好的射门基准,而且还具有更具挑战性的场景,以及随机任务,域班和更大的课程,如最近介绍的那样元数据集。我们的代码公开提供 |
Sentinel-1 and Sentinel-2 Spatio-Temporal Data Fusion for Clouds Removal Authors Alessandro Sebastianelli, Artur Nowakowski, Erika Puglisi, Maria Pia Del Rosso, Jamila Mifdal, Fiora Pirri, Pierre Philippe Mathieu, Silvia Liberata Ullo 在空间和时间上位于空间和时间,云的丰富云通常使光学图像难以甚至不可能进行遥感应用。在该稿件中,已经基于联合数据融合范例呈现和开发了一种新颖的云损坏的光学图像恢复方法,其中三个深神经网络已经组合,以便熔断从哨兵1和哨兵2时间提取的时空时间特征。系列数据。值得突出显示代码和数据集已从划伤中实施,并为有兴趣的研究提供了进一步的分析和调查。 |
Image-to-Image Translation of Synthetic Samples for Rare Classes Authors Edoardo Lanzini, Sara Beery 自然界是长尾稀有阶级的罕见阶级比普通常见的数量差异,导致高度不平衡的数据,罕见课程只有少数例子。从少数示例中学习是基于深度学习的分类算法的已知挑战,是低射击学习领域的焦点。增加这些稀有类别培训数据的一种潜在方法是使用合成样品增强有限的真实数据。这已被证明有助于帮助,但是在实际数据上测试时,实际和合成之间的域移位阻碍了接近的疗效。 |
Real-time Instance Segmentation with Discriminative Orientation Maps Authors Wentao Du, Zhiyu Xiang, Shuya Chen, Chengyu Qiao, Yiman Chen, Tingming Bai 虽然近年来,实例分割已经取得了相当大的进步,但它仍然是设计具有实时性能的高精度算法的挑战。在本文中,我们提出了一个实时实例分割框架,被称为orienmask。在一个阶段对象检测器Yolov3上,添加掩模头以预测一些识别的取向图,该映射映射被明确地被明确地定义为前景和背景像素的空间偏移矢量。由于取向图的辨别能力,可以在不需要额外的前景分割的情况下恢复掩模。所有与同一锚大小匹配的实例共享常见的方向图。这种特殊共享策略可降低掩码预测的摊销内存利用率,但不会丢失面膜粒度。鉴于NMS之后的幸存箱预测,可以从具有低复杂度的相应方向映射同时构造实例掩模。由于掩模表示的简洁设计及其与基于锚的物体检测器的有效集成,我们的方法在实时条件下符合实时条件,同时保持竞争精度。 Coco基准测试的实验表明,奥提蒙掩码以42.7fps的速度达到34.8个掩模AP,用单个RTX 2080 Ti评估。代码可用 |
Vision-based Behavioral Recognition of Novelty Preference in Pigs Authors Aniket Shirke, Rebecca Golden, Mrinal Gautam, Angela Green Miller, Matthew Caesar, Ryan N. Dilger 研究数据的行为评分对于提取域特异性指标至关重要,但是允许分析使用人工劳动力的巨大信息的能力。深入学习被广泛被视为缓解这个瓶颈的关键进步。我们确定一个这样的领域,可以利用深度学习来缓解手动评分的过程。新颖的偏好范式已被广泛用于研究猪中的识别记忆,但这些视频的分析需要人为干预。我们以猪新颖偏好行为PNPB数据集的形式引入了这种视频的子集,该数据集与猪动作和关键点完全注释。为了展示在该数据集上的最新状态的应用,我们将在各种分析指标的基础上比较LRCN,C3D和TSM,并讨论模型的常见缺陷。我们的方法在估计仔猪行为中实现了93的精度和平均平均精度为96。 |
Region-Aware Network: Model Human's Top-Down Visual Perception Mechanism for Crowd Counting Authors Yuehai Chen, Jing Yang, Dong Zhang, Kun Zhang, Badong Chen, Shaoyi Du 背景噪声和规模变化是在人群计数中识别的常见问题。人类在人群形象上瞥了一眼,立即了解了人类的大致数量,并在其中通过注意人群地区和具有全球接受的人群区域的拥堵程度。因此,在本文中,我们通过建模人的顶部视觉感知机制来提出具有称为RANET的区域意识块的新型反馈网络。首先,我们介绍反馈架构以生成在输入图像中候选人群区域之前提供的优先级地图。前面使Ranet能够更加关注人群地区。然后,我们设计区域意识到通过全局接收字段可自适应地将上下文信息自适应编码为输入图像。更具体地,我们以列向量的形式扫描整个输入图像及其优先级,以获得估计其相似度的相关性矩阵。获得的相关性矩阵将用于构建像素之间的全局关系。我们的方法优于艺术人群数在几个公共数据集上的艺术人群计数方法。 |
Neural Fashion Image Captioning : Accounting for Data Diversity Authors Gilles Hacheme, Noureini Sayouti 图像标题越来越大的应用领域,时尚不是例外。具有自动项目描述对于时尚网络平台托管有时是数十万图像的兴趣。本文是用于时尚图像的第一个解决图像标题之一。为了贡献解决数据集分集问题,我们介绍了包含近16.000个非洲时尚物品图像的Infashaiv1数据集,其标题,价格和一般描述。除了infashaiv1之外,我们还使用了众所周知的Deepfashion DataSet。使用Textit Show和CNN编码器和RNN解码器制成的模型生成标题。我们表明,共同培训两种数据集的模型可提高非洲风格时尚图像的标题质量,这表明从西方风格数据转移。 Infashaiv1数据集在HREF上发布 |
Bootstrap Representation Learning for Segmentation on Medical Volumes and Sequences Authors Zejian Chen, Wei Zhuo, Tianfu Wang, Wufeng Xue, Dong Ni 在这项工作中,我们提出了一种新的医疗体积和序列分割方法,具有有限的注释。为了避免富裕的注释,最近自我监督学习SSL的成功激励了对未标记数据的预培训。尽管取得了成功,但由于缺乏对局部语义歧视和罕见的漏斗和序列结构的罕见开采,因此仍然具有挑战性。基于切片帧与跨越卷序列的常见空间布局之间的连续性,我们通过利用相邻切片的可预测的可能性引入了一种新的引导自我监督的表示学习方法。在我们的方法中,我们的方法是基于全球背景的基于全球背景的本地表现的预测和预测当地人的策略,这使得能够稳定可靠地监督卷。具体地,我们首先提出了一种不对称的网络,引导引导预测器来强制在体积序列内和跨越卷序列内的距离特定预测和监督。其次,我们介绍了一种新颖的基于原型的前景背景校准模块,以增强表示一致性。这两部分在标记和未标记的数据上共同培训。当在医疗卷和序列的三个基准数据集进行评估时,我们的模型优于现有的方法,在ACDC上具有4.5个DSC的大幅度,1.7在前列腺上,2.3卡。密集评估揭示了我们方法的有效性和优势。 |
PatentNet: A Large-Scale Incomplete Multiview, Multimodal, Multilabel Industrial Goods Image Database Authors Fangyuan Lei, Da Huang, Jianjian Jiang, Ruijun Ma, Senhong Wang, Jiangzhong Cao, Yusen Lin, Qingyun Dai 在深度学习区,大规模图像数据集在对象识别和检索的成功中带来了突破。如今,作为创新的实施例,工业品的多样性明显更大,其中不完整的多视图,多式联运和多标签与传统数据集不同。在本文中,我们介绍了工业用品数据集,即专利网,具有许多高度多样化,准确和详细的工业产品形象的注释,以及相应的文本。在专利网中,图像和文本来自设计专利。在超过6M的图像内和由专业人士手动检查的工业物品的相应文本,专利网是第一个持续的工业品图像数据库,其品种比以前用于基准测试的工业用品数据集更广泛。专利网基于Locarno分类协议将数百万图像组织成32个类和219个子类。通过对图像分类的大量实验,图像检索和不完整的多视图聚类,我们证明我们的专利网是更多样化,复杂,具有挑战性,享有比现有的工业图像数据集更高的潜力。此外,专利网中不完整的多媒体,多式联运和多标签的特征能够在人工智能界和超越中提供无与伦比的机会。 |
Exploiting Negative Learning for Implicit Pseudo Label Rectification in Source-Free Domain Adaptive Semantic Segmentation Authors Xin Luo, Wei Chen, Yusong Tan, Chen Li, Yulin He, Xiaogang Jia 期望在没有源数据的情况下将存储在训练源模型中的知识传送到非注释的目标域。然而,用于源无域适应SFDA的技术方法的状态是严格的限制1,对源模型的内部规格的访问是必须,2个伪标签应该在自训练期间清洁,使得依赖于语义细分的关键任务不可靠。本研究瞄准这些陷阱,将域自适应解决方案与伪标签校正的语义分割,即伪标签校正PR SFDA,其在两个阶段操作1次临时信心规则化无监督的学习最大广场损失适用于规范目标模型以确保对预测的信心和2个短暂的噪声感知伪标签学习消极学习使得能够容忍训练中的嘈杂伪标签,同时积极的学习实现了快速的收敛。已经对域自适应语义分段基准进行了广泛的实验,Texit GTA5至CityCapes。总体而言,Textit PR SFDA实现了49.0 Miou的表现,非常接近最先进的同行。请注意,后一个需求访问源模型的内部规范,而Textit PR SFDA解决方案则不需要锐度对比度。 |
LegoFormer: Transformers for Block-by-Block Multi-view 3D Reconstruction Authors Farid Yagubbayli, Alessio Tonioni, Federico Tombari 基于最现代的深度学习的多视图3D重建技术使用RNN或Fusion模块在编码它们之后将信息与多个图像组合。这两个单独的步骤具有松散的连接,并且在编码每个视图时不考虑所有可用信息。我们提出了一种基于变压器的基于变压器的模型,该模型统一一个框架下的对象重建,并通过其分解因子进行重建的占用网格。该重构允许将物体预测为一组独立结构,然后聚合以获得最终的重建。在ShapEnet上进行的实验显示了我们网络的竞争性能,了解最先进的方法。我们还展示了自我注意的使用如何增加模型输出的可解释性。 |
Reachability Analysis of Convolutional Neural Networks Authors Xiaodong Yang, Tomoya Yamaguchi, Hoang Dung Tran, Bardh Hoxha, Taylor T Johnson, Danil Prokhorov 深度卷积神经网络已被广泛采用作为处理复杂和实际问题的有效技术。然而,一个基本问题是缺乏分析其行为的正式方法。为了解决这一挑战,我们提出了一种方法来计算给定输入域的网络的确切可达装置,其中可到达组由面部格结构表示。除了可达集合的计算外,我们的方法还能够考虑到输出到达集的输入域。因此,可以实现对网络的完整分析。另外,还引入了一种快速分析的方法,其通过考虑每层中的选定的敏感神经元来进行可达的集合的快速计算。在CNN上对CNN进行了精确的像素级可达性分析方法,用于CIFAR10数据集,与相关工程相比。快速分析方法通过CNN CNN CIFAR10数据集和VGG16架构进行评估,用于想象成数据集。 |
Automatic Head Overcoat Thickness Measure with NASNet-Large-Decoder Net Authors Youshan Zhang, Brian D. Davison, Vivien W. Talghader, Zhiyu Chen, Zhiyong Xiao, Gary J. Kunkel 透射电子显微镜TEM是显示材料微观结构表征的主要工具之一以及膜厚度。然而,手动测定来自TEM图像的膜厚度是耗时的以及主观性,特别是当有问题的胶片非常薄并且需要测量精度非常高时。这种情况是磁性硬盘驱动器行业的头部外涂层厚度测量的情况。因此,有必要开发软件以自动测量hoc厚度。在本文中,我们首次提出了使用NASNet的Hoc层分段方法作为编码器,然后是解码器架构,这是用于图像分割的深度学习中最常用的架构之一。为了进一步改善分割结果,我们是第一个提出后处理层以在分割结果中去除无关的部分。为了测量分段的HOC层的厚度,我们提出了一种回归卷积神经网络RCNN模型以及正交厚度计算方法。实验结果表明我们模型的较高骰子得分,其具有较低的平均平方误差和优于最新的现有技术的手动测量状态。 |
Volume Rendering of Neural Implicit Surfaces Authors Lior Yariv, Jiatao Gu, Yoni Kasten, Yaron Lipman 最近神经体积渲染越来越受欢迎,因为它在从稀疏的输入图像集合中合成场景的新颖视图的成功。到目前为止,使用通用密度函数建模神经音量渲染技术的几何形状。此外,使用通向嘈杂的密度函数的任意级别集提取几何形状本身,导致嘈杂,通常是低保真重建。本文的目标是改善神经体积渲染中的几何形象和重建。我们通过将体积密度作为几何函数建模来实现这一点。这与以前的工作与体积密度的函数建模相反。更详细地,我们将音量密度函数定义为Laplace S累积分布函数CDF应用于签名距离功能SDF表示。这种简单的密度表示具有三个益处I,它为神经音量渲染过程中学到的几何形状提供了一种有用的电感偏压II,它促进了不透明度近似误差的绑定,从而实现了观看射线的准确采样。准确的采样对于提供几何和辐射的精确耦合,III允许高效无监督的脱位,在体积渲染中的形状和外观。将这种新密度表示应用于具有挑战性的场景多视图数据集生产了高质量的几何重建,优于相关的基线。此外,由于两者的解剖学,场景之间的切换形状和外观是可能的。 |
Listen to Your Favorite Melodies with img2Mxml, Producing MusicXML from Sheet Music Image by Measure-based Multimodal Deep Learning-driven Assembly Authors Tomoyuki Shishido, Fehmiju Fati, Daisuke Tokushige, Yasuhiro Ono 最近已经应用于光学音乐识别OMR的深度学习。然而,目前来自各种纸张音乐图像的OMR加工仍然缺乏精度可广泛适用。这里,我们提出了一种基于MMDA测量的多模式深度学习DL驱动组装方法,其允许从包括倾斜照片图像的各种图像结束到结束OMR处理。使用该方法,通过深度学习模型,对齐的,调整为大小的措施,以便通过使用序列或并行使用多个深度学习模型来推动给定音乐符号组件。每个标准化措施的使用使得能够高效培训模型,并准确调整每种措施中的五条员工。具有少量特征类型的多个音乐符号组件类别模型可以代表一个不同的笔记和其他音乐符号,包括和弦。该MMDA方法提供了一种通过精度结束到终端OMR处理的解决方案。 |
The Neurally-Guided Shape Parser: A Monte Carlo Method for Hierarchical Labeling of Over-segmented 3D Shapes Authors R. Kenny Jones, Rana Hanocka, Daniel Ritchie 许多基于学习的3D形状语义分段方法将标签分配给形状原子。点云或面向网格中的点,用单通道接近训练结束以结束时尚。此类方法实现令人印象深刻的性能,但需要大量标记的培训数据。该范例纠缠了两个可分离的子问题1将形状分解成区域和2分配给这些区域的语义标签。我们声称解除了这些子问题的解标减少了标记的数据负荷1区域分解不需要语义标签,并且可以以无监督的方式执行,并且2个标记形状区域而不是原子会导致较小的搜索空间,并且应该以较少标记的训练数据来学习。 。在本文中,我们通过呈现神经引导的形状解析器NGSP来研究第二个索赔,该方法是一种方法,该方法学习如何将语义标签分配给过量分段的3D形状的区域。我们通过MAP推断来解决这个问题,建模标签分配的后验概率在输入形状上。我们采用由神经提案网络引导的蒙特卡罗重要性采样方法,通过假设输入形状被分解成离散区域,通过基于搜索的方法。我们从Partnet的制造3D形状上的分层语义分割任务进行评估。我们发现NGSP通过学习形状原子的基线提供显着的性能改进,然后为每个形状区域的聚合预测,尤其是在低数据方案中。最后,我们证明NGSP对区域粒度具有鲁棒性,因为即使区域经历重大腐败,它也保持了强大的分割性能。 |
Team PyKale (xy9) Submission to the EPIC-Kitchens 2021 Unsupervised Domain Adaptation Challenge for Action Recognition Authors Xianyuan Liu, Raivo Koot, Shuo Zhou, Tao Lei, Haiping Lu 本报告介绍了向史诗厨房提交2021个无监督域适应挑战以进行行动认可的技术细节。由于具有更多模式的多项任务,史诗厨房数据集比其他视频域适应数据集更困难。首先,参加挑战,我们采用一个变压器来捕获每个码形的空间信息。其次,我们采用了一个时间注意力模块来模拟时间明智的依赖性。第三,我们采用了对抗域适应网络来学习标记为源和未标记的目标域之间的一般功能。最后,我们纳入了多种模式,以通过具有晚期融合的三个流网络来提高性能。我们的网络实现了与最新的基线T A 3 N的相对性能,并优于基线对动词类的前1个精度和动词,名词和动作的所有三个任务的前5个精度。在团队名称XY9下,我们的提交在动词类的前1个精度和所有前5个精度方面实现了第5位。 |
On Matrix Factorizations in Subspace Clustering Authors Reeshad Arian, Keaton Hamm 本文探讨了使用Cur分解的子空间聚类算法,并在两个真实世界基准数据集中,研究了这些算法中的各种超参数在这些算法中的效果,Hopkins155运动分段数据集和耶鲁脸部数据集。对于各种采样方法和用于这些数据集的过采样参数进行了广泛的实验,并为实际应用提供了一些参数选择的指导。 |
Transfer Learning of Deep Spatiotemporal Networks to Model Arbitrarily Long Videos of Seizures Authors Fernando P rez Garc a, Catherine Scott, Rachel Sparks, Beate Diehl, S bastien Ourselin 对癫痫发作期间发生的癫痫发作,症状和迹象的详细分析对癫痫患者的管理至关重要。使用定性视觉分析的互补可靠性往往较差,对于半导体特征通常差。因此,客观评估需要自动和定量分析视频录制的癫痫发作。 |
P2T: Pyramid Pooling Transformer for Scene Understanding Authors Yu Huan Wu, Yun Liu, Xin Zhan, Ming Ming Cheng 本文共同解析了视觉变压器中的两个问题I,计算多头自我的计算MHSA具有高计算空间复杂性II近期视觉变压器网络过度调整了图像分类,忽略了图像分类之间的差异,更类似于NLP和下游。场景了解任务复杂的情景,丰富的结构和上下文信息。为此,我们注意到由于其强大的上下文抽象而证明金字塔汇集在各种愿景任务中有效,其空间不变性的自然属性适合解决结构信息问题II的丧失。因此,我们建议使金字塔汇集到MHSA,以减轻其对计算资源问题的高要求。通过这种方式,这种基于汇集的MHSA可以很好地解决上述两个问题,因此对于下游场景了解任务是灵活的强大。插入我们的池池的MHSA,我们构建了一个下游任务导向的变压器网络,被称为金字塔汇集变压器P2T。广泛的实验表明,当应用P2T作为骨干网络时,与先前的CNN和基于CNN和变压器的网络相比,它在各种下游场景理解任务中显示了各种下游场景的实质优势。该代码将被释放 |
Feature Alignment for Approximated Reversibility in Neural Networks Authors Tiago de Souza Farias, Jonas Maziero 我们引入特征对准,一种用于在人工神经网络中获得近似可逆性的技术。通过特征提取,我们可以训练神经网络以学习其反向处理的估计地图从输出到输入。结合变形式AutoEncoders,我们可以从与训练数据相同的统计数据生成新的样本。通过使用生成的对抗网络的概念获得结果的改进。最后,我们表明可以修改该技术,用于本地培训神经网络,节省计算内存资源。应用这些技术,我们向3个视觉生成任务Mnist,CiFar 10和Celeba报告结果。 |
Diabetic Retinopathy Detection using Ensemble Machine Learning Authors Israa Odeh, Mouhammd Alkasassbeh, Mohammad Alauthman 糖尿病视网膜疗法博士是世界领先的糖尿病患者的视力丧失原因之一。 DR是一种影响眼视网膜的微血管疾病,导致血管堵塞,从而减少视网膜组织的主要营养来源。这种视觉障碍的治疗在最早检测到最早阶段时最有效,因为严重的DR可能导致不可逆的失明。尽管如此,博士识别要求眼科医生的专业知识,这通常是昂贵和耗时的。因此,引入了自动检测系统,旨在促进识别过程,使其在全球范围内提供时间和成本效率。然而,由于对这种特殊眼病的可靠数据集和医疗记录有限,所获得的预测是眼科医生依赖于诊断系统的准确性差距。因此,我们探讨了基于集合的学习策略,在一个复杂的诊断模型中合并了大量众所周知的分类算法。所提出的框架在该地区的所有其他常见分类算法中实现了最高的精度率。生成4个子地图以包含由infogaineval选择的Messidor DataSet的前5个和前10个功能。和wrappersubseteval。,在infogaineval上实现了70.7和75.1的精度。分别为前5名和原始数据集。结果意味着子场的令人印象深刻的性能,这显着达到了较差的分类过程 |
Coarse-to-Fine Q-attention: Efficient Learning for Visual Robotic Manipulation via Discretisation Authors Stephen James, Kentaro Wada, Tristan Laidlow, Andrew J. Davison 在过去几年中反映出,深度加强学习RL的最大突破一直处于离散行动领域。然而,机器人操纵本质上是连续的控制环境,但由于参与者和评论家的联合优化,这些连续控制增强学习算法通常依赖于样本估计的方法,这是一个样本效率低下和固有的难以训练。为此,我们探讨我们如何将离散动作R1算法的稳定性带到机器人操作域。我们通过使用离散的下一个最佳姿势代理替换连续的下一个最佳姿势代理来扩展最近发布的ARM算法。鉴于其有界性质,旋转的旋转自由化是微不足道的,而翻译本质上是无界的,则难以藐视。我们通过离散的3D空间来制定翻译预测作为体素预测问题,然而,大工作空间的Voxelatization是记忆密集型的,并且不能与高密度的体素合作,这是对机器人操纵所需的分辨率至关重要。因此,我们建议通过逐渐增加分辨率来以粗糙的方式施加这种体素预测。在每个步骤中,我们将最高值的体素提取为预测位置,然后将其用作下一步中更高分辨率Voxelisation的中心。在几个步骤中施加这种粗略预测,给出了对翻译的近无损预测。我们表明,我们的新粗略算法能够比连续控制等同物更有效地完成Rlbench任务,甚至在不到7分钟的时间内培训一些现实世界任务,只有3个演示。此外,我们表明,通过移动到体素表示,我们能够轻松地从多个摄像机中纳入观察。 |
FoldIt: Haustral Folds Detection and Segmentation in Colonoscopy Videos Authors Shawn Mathew, Saad Nadeem, Arie Kaufman 外壳折叠是在光学结肠镜检查过程中具有含有高息肉错过率的结肠壁突起。如果精确地分割,外壳折叠可以允许更好地估计错过的表面,并且还可以用作注册预处理虚拟CT和光学结肠镜检查的有价值的地标,以引导导航到预处理扫描中的异常。我们提出了一种新颖的生成对抗性网络,Foldit,用于光学结肠镜检查的特征一致图像平移到虚拟结肠镜检查渲染,其具有国有折叠叠加。引入了新的传递损失,以便在国有折叠注释和虚拟结肠镜渲染期之间利用地面真理信息。我们展示了我们对真正挑战光学结肠镜检查视频以及临床医生验证的外国折叠注释的纹理虚拟结肠镜检查视频的有效性。将通过我们的计算内窥镜平台提供本文的实验的所有代码和脚本 |
High-Throughput Precision Phenotyping of Left Ventricular Hypertrophy with Cardiovascular Deep Learning Authors Grant Duffy, Paul P Cheng, Neal Yuan, Bryan He, Alan C. Kwan, Matthew J. Shun Shin, Kevin M. Alexander, Joseph Ebinger, Matthew P. Lungren, Florian Rader, David H. Liang, Ingela Schnittger, Euan A. Ashley, James Y. Zou, Jignesh Patel, Ronald Witteles, Susan Cheng, David Ouyang 左心室肥大LVH由慢性重塑引起的慢性重塑引起的血管疾病,包括高血压,主动脉狭窄,肥厚性心肌病和心脏淀粉样症。 LVH的早期检测和表征可以显着影响患者护理,但受到抑制性的肥大,测量误差和可变性的限制,难以区分LVH的病因。为了克服这一挑战,我们展示了Echonet LVH一个深入学习工作流程,可以通过等于人类专家的精确度来自动量化心室肥大,并预测LVH的病因。培训28,201超声心动图录像,我们的模型精确测量腔内壁厚平均绝对误差MAE 1.4mm,95 CI 1.2 1.5mm,左心室直径MAE 2.4mm,95 CI 2.2 2.6mm,和后壁厚度MAE 1.2mm,95 CI 1.1 1.3mm,并在0.83曲线下分类心脏淀粉样蛋白病区,从LVH的其他病因中0.98。在来自独立国内和国际医疗系统的外部数据集中,分别为0.96和0.90的室内参数R2的Echonet LVH分别检测到的心脏淀粉样症AUC 0.79和肥厚性心肌病AUC 0.89在国内外部验证网站上。利用多重心跳的测量,我们的模型可以更准确地识别LV几何形状及其因果术中的细微变化。与人类专家相比,Echonet LVH全自动,允许可重复,精确的测量,并为心脏肥大的精确诊断奠定基础。作为促进进一步创新的资源,我们还可以公开提供23,212个注释的超声心动图象的大型数据集。 |
Multi-modal and frequency-weighted tensor nuclear norm for hyperspectral image denoising Authors Sheng Liu, Xiaozhen Xie, Wenfeng Kong, Jifeng Ning 低排名在高光谱图像HSI去噪任务中非常重要。基于张量奇异值分解定义的张量核规范TNN是描述HSI的低等级的现有方法。然而,TNN忽略了HSI在解决去噪的任务时的一些物理含义,导致次优的去噪性能。在本文中,我们提出了多种模态和频率加权张量核规范MFWTNN和用于HSI去噪任务的非凸MFWTNN。首先,我们研究了频率分量的物理意义,并重新考虑其权重,以提高TNN的低秩表示能力。同时,我们还考虑了两种空间尺寸和HSI的光谱尺寸之间的相关性,并将上述改进与TNN结合起来提出MFWTNN。其次,我们使用非凸起函数来近似频率张量的等级函数,并提出了更好地放松MFWTNN的非模糊。此外,我们自适应地为主要包含噪声信息和包含简档信息的切片的噪声信息和较小权重的切片选择更大的重量。最后,我们开发了基于乘法器ADMM的算法的高效交替方向方法来解决所提出的模型,在模拟和真实的HSI数据集中证实了模型的有效性。 |
STRESS: Super-Resolution for Dynamic Fetal MRI using Self-Supervised Learning Authors Junshen Xu, Esra Abaci Turk, P. Ellen Grant, Polina Golland, Elfar Adalsteinsson 胎儿运动是不可预测的,并且在传统MR扫描时间的规模上迅速。因此,旨在捕获胎儿运动和胎儿功能动态的动态胎儿MRI仅限于图像质量和分辨率妥协的快速成像技术。动态胎儿MRI的超级分辨率仍然是一个挑战,特别是当需要用于过采样的多导定量的图像切片时,期望用于记录胎儿或胎盘的动态的高时间分辨率。此外,胎儿运动使得难以获取用于监督学习方法的高分辨率图像。为了解决这个问题,在这项工作中,我们提出了与模拟扫描的压力时空时间分辨率提升,一种具有交错切片采集的动态胎儿MRI的自我监督的超分辨率框架。我们所提出的方法在最初获取的数据上模拟沿着高分辨率轴的交织切片采集,以产生对低分辨率的图像对。然后,它通过利用MR时间序列中的空间和时间相关性来列举超分辨率网络,该网络用于增强原始数据的分辨率。对模拟和子宫数据的评估表明,我们的提出方法优于其他自我监督的超分辨率方法,提高了图像质量,这对其他下游任务和评估有利。 |
Learning from Pseudo Lesion: A Self-supervised Framework for COVID-19 Diagnosis Authors Zhongliang Li, Zhihao Jin, Xuechen Li, Linlin Shen 自2019年12月和胸上计算机断层扫描CT是其诊断的主要工具之一,冠状病毒疾病2019年Covid 19自迅速蔓延到全球。近年来,基于深入的学习方法在无数图像识别任务中表现出令人印象深刻的性能。但是,它们通常需要大量注释数据进行培训。灵感来自地面玻璃不透明GGO,COIVD 19患者CT扫描中的常见发现,我们提出了一种基于伪病变的新型自我监督预测方法,对Covid 19诊断的恢复。我们使用Perlin噪声,一种基于梯度噪声的数学模型,产生类似模式的病变,然后随机粘贴到普通CT图像的肺部区域以产生伪Covid 19图像。然后,使用正常和伪COVID 19图像对基于编码器解码器架构的U NET进行图像恢复,这不需要任何标记的数据。然后使用标记的CoVID数据进行微调的预调谐器进行微调19诊断任务。两个公共Covid 19由CT图像组成的诊断数据集用于评估。综合实验结果表明,建议的自我监督学习方法可以提取更好的Covid 19诊断特征表示,所提出的方法的准确性优于6.57和3.03在SARS COV 2数据集和Jinan Covid 19数据集上的监督模型。 , 分别。 |
Behavior Mimics Distribution: Combining Individual and Group Behaviors for Federated Learning Authors Hua Huang, Fanhua Shang, Yuanyuan Liu, Hongying Liu 联合学习FL已成为一个积极和有前途的分布式机器学习范式。由于统计异质性,最近的研究清楚地表明,由于本地更新引起的客户端漂移,FedAVG的流行方法的性能显着恶化。本文提出了一种名为IGFL的新型联合学习算法,其利用个人和组行为来模仿分布,从而提高了处理异质性的能力。与现有的FL方法不同,我们的IGFL可以应用于客户端和服务器优化。作为产品,我们提出了一种基于IGFL服务器优化的联合学习的新关注。据我们所知,这是第一次将注意力纳入联合优化时。我们进行广泛的实验,并表明IGFL可以显着提高现有联合学习方法的性能。特别是当各个数据之间的数据分布是多样的时,与先前基线相比,IGFL可以通过约13提高分类精度。 |
Collaborative Visual Inertial SLAM for Multiple Smart Phones Authors Jialing Liu, Ruyu Liu, Kaiqi Chen, Jianhua Zhang, Dongyan Guo 映射的效率和准确性在大型场景和长期AR应用中至关重要。多代理合作SLAM是多用户AR交互的前提。多种智能手机的合作有可能提高任务完成的效率和稳健性,并可以完成单个代理人无法做到的任务。但是,它取决于强大的通信,有效的位置检测,鲁棒映射和代理之间的有效信息共享。我们提出了一种在具有集中式架构的多个IOS移动设备上部署的多智能协作单眼视觉惯性SLAM。每个代理可以独立地探索环境,在线运行视觉惯性内径模块,然后将所有测量信息发送到具有更高计算资源的中央服务器。服务器管理所接收的所有信息,检测重叠区域,合并并优化地图,并在需要时与代理共享信息。我们已经验证了系统在公共数据集和真实环境中的性能。所提出的系统的映射和融合的准确性与Vins Mono相当,需要更高的计算资源。 |
A Review of Assistive Technologies for Activities of Daily Living of Elderly Authors Nirmalya Thakur, Chia Y. Han 本世纪的鲜明特征之一一直是老年人的人口,这一直是不断崛起的。老年人由于身体残疾,认知问题,弱化记忆和紊乱的行为而有几个需求和要求,他们面临着增加的年龄。这些限制的程度也根据老年人的不同多样性而不同,包括年龄,性别,背景,经验,技能,知识等。这些不同的需求和挑战随着年龄越来越多,限制老年人的能力以独立的方式执行日常生活的活动。为了添加到它,护理人员的短缺会为老年人提供基于技术的服务,以帮助他们进行日常常规任务以维持其独立的生活和积极的老化。为满足这些需求,这项工作包括在这一领域作出三项主要贡献。首先,它提供了对辅助生活技术的相当全面的审查,旨在帮助老年人进行ADL。其次,该工作讨论了通过本综述所确定的挑战,目前存在于执行智能家庭和智能城市的老年人护理辅助生活服务的背景下存在。最后,该工作还概述了该领域现有工作的实施,扩展和集成的方法,以便在其不同且不断变化的需求的情况下向老年人提供个性化辅助和用户中心的行为干预。 |
Deformed2Self: Self-Supervised Denoising for Dynamic Medical Imaging Authors Junshen Xu, Elfar Adalsteinsson 图像去噪对于医学成像系统具有重要意义,因为它可以提高疾病诊断和下游图像分析的图像质量。在各种应用中,利用动态成像技术来捕获对象的时间变化特征,其中在不同时间点获取多个图像的多个图像。尽管每个时间帧的信噪比通常受短路采集时间限制,但是可以利用不同时间帧之间的相关性以在跨时帧的共享信息改善去噪结果。随着神经网络在计算机视觉中的成功,监督深度学习方法在单一图像去噪中表现出突出的性能,依赖于使用Clean VS噪声图像对的大型数据集。最近,已经提出了几种自我监督的深层去噪模式,实现了有前途的结果而不需要清洁图像的成对地面真理。然而,在多图像去噪的领域,已经在从多个切片中提取相关信息以使用自我监督的深度学习方法来完成很少的作用。在这项工作中,我们提出了Deformed2,结束了最终的自我监督的动态影像发起深入学习框架。它结合了单个图像和多像去噪,提高图像质量,并使用空间变压器网络在不同切片之间进行模拟运动。此外,它仅需要一个嘈杂的图像,在不同的时间帧处具有少量辅助观察以进行训练和推论。具有不同噪声统计数据的幻象和体内数据的评估表明,我们的方法对其他艺术状态无调节或自我监督的去噪方法以及在高噪声水平下优于优势的性能。 |
APNN-TC: Accelerating Arbitrary Precision Neural Networks on Ampere GPU Tensor Cores Authors Boyuan Feng, Yuke Wang, Tong Geng, Ang Li, Yufei Ding 多年来,通过广泛研究了与量化的基本网络的加速。遗憾的是,在GPU上的有限精度支持的情况下,有一个不同的精度的事先努力,通常限制了GPU。,INT1和INT4。为了打破这种限制,我们介绍了第一批任意精密神经网络框架APNN TC,以充分利用对安培GPU张量核心的量化优势。具体地,APNN TC首先结合了一种新的仿真算法来支持与INT1计算基元和XOR和布尔操作的任意短比特宽度计算。其次,APNN TC集成了任意精密层设计,以便用新颖的批处理策略和专业的记忆组织有效地将我们的仿真算法映射到张量核心。第三,APNN TC体现了一种新型任意精度NN设计,可最大限度地减少层次的存储器访问,并进一步提高性能。广泛的评估表明,APNN TC可以实现显着加速粘蛋白内核和各种NN模型,例如Reset和VGG。 |
CxSE: Chest X-ray Slow Encoding CNN forCOVID-19 Diagnosis Authors Thangarajah Akilan 冠状病毒在以指数速率传播时,冠状病毒继续扰乱日常生活。需要快速检测它以检测阳性患者,以避免进一步传播。这项工作提出了一种新的卷积神经网络CNN架构,称为慢编码CNN。所提出的模型S最佳性能WRT敏感性,阳性预测值PPV发现为SP 0.67,PP 0.98,SN 0.96和PN 0.52对Covid19筛选X射线图像进行Covid 19感染竞争S试验数据样本。 SP和PP代表Covid 19正类的灵敏度和PPV,而Pn和Sn代表Covid 19负类的灵敏度和PPV。 |
Towards Consistent Predictive Confidence through Fitted Ensembles Authors Navid Kardan, Ankit Sharma, Kenneth O. Stanley 深度神经网络在机器学习应用中的许多最近成功之后。然而,这些模型可以在遇到分销的情况下遇到过分自信的决策,或者出现错误的预测。这种不一致的预测置信度限制了独立训练的学习模型将独立训练的学习模型集成到更大的系统中。本文介绍了可分离的概念学习框架,以实际测量在ood示例存在下分类器的性能。在此设置中,分类器的若干实例在该组类别的分区的不同部分上培训。稍后,在单独的测试集上评估这些模型组合的性能。与当前的检测技术不同,此框架不需要辅助OOD数据集,并且不会将分类与检测性能不同。此外,我们为深入模型的更一致的预测信心提供了一种新的强大基线,称为拟合集合,其中通过原始分类任务的转换版本纠正过度自信预测。拟合集合可以自然地检测OOD示例,而不需要通过观察其组件之间的矛盾预测而需要辅助数据。 Mnist,SVHN,CiFar 10 100和Imagenet的实验显示拟合集合在OOD示例中显着优于常规集合,可以缩放。 |
Chinese Abs From Machine Translation |