Bootstrap

【AI视野·今日CV 计算机视觉论文速览 第304期】Thu, 7 Mar 2024

AI视野·今日CS.CV 计算机视觉论文速览
Thu, 7 Mar 2024
Totally 67 papers
👉上期速览更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

DART: Implicit Doppler Tomography for Radar Novel View Synthesis
Authors Tianshu Huang, John Miller, Akarsh Prabhakara, Tao Jin, Tarana Laroia, Zico Kolter, Anthony Rowe
仿真对于射频系统设计人员来说是一个非常宝贵的工具,可以快速构建用于成像、目标检测、分类和跟踪的各种算法的原型。然而,模拟真实的雷达扫描是一项具有挑战性的任务,需要精确的场景模型、射频材料特性以及相应的雷达合成函数。我们没有明确指定这些模型,而是提出了 DART 多普勒辅助雷达断层扫描,这是一种受神经辐射场启发的方法,它使用雷达特定的物理原理为距离多普勒图像创建基于反射率和透射率的渲染管道。然后,我们通过构建自定义数据收集平台并收集新颖的雷达数据集以及来自基于激光雷达的定位的准确位置和瞬时速度测量来评估 DART。

Self and Mixed Supervision to Improve Training Labels for Multi-Class Medical Image Segmentation
Authors Jianfei Liu, Christopher Parnell, Ronald M. Summers
准确的训练标签是多类医学图像分割的关键组成部分。他们的注释既昂贵又耗时,因为它需要领域专业知识。这项工作旨在开发双分支网络并自动改进多类图像分割的训练标签。迁移学习用于训练网络并依次改进不准确的弱标签。双分支网络首先单独通过弱标签进行训练来初始化模型参数。网络稳定后,共享编码器被冻结,强弱解码器一起通过强弱标签进行微调。弱标签的准确率在微调过程中迭代提高。该方法应用于腹部 CT 扫描上肌肉、皮下和内脏脂肪组织的三级分割。对11名患者的验证结果显示,训练标签的准确性在统计上显着提高,肌肉、皮下和内脏脂肪组织的Dice相似系数分别从74.2增加到91.5、91.2到95.6和77.6到88.5,p < 0.05。与我们之前的方法相比,标签准确率也显着提高了 p 0.05 。

Latent Dataset Distillation with Diffusion Models
Authors Brian B. Moser, Federico Raue, Sebastian Palacio, Stanislav Frolov, Andreas Dengel
机器学习的功效传统上依赖于越来越大的数据集的可用性。然而,大型数据集带来了存储挑战,并且包含无影响力的样本,这些样本在训练过程中可以被忽略,而不会影响模型的最终准确性。为了应对这些限制,出现了将数据集上的信息提炼成一组压缩的合成样本的概念,即提炼数据集。一个关键方面是所选择的架构,通常是用于链接原始数据集和合成数据集的 ConvNet。然而,如果所采用的模型架构与蒸馏期间使用的模型不同,则最终精度会较低。另一个挑战是生成高分辨率图像,例如 128x128 及更高。在本文中,我们提出了带有扩散模型 LD3M 的潜在数据集蒸馏,它将潜在空间中的扩散与数据集蒸馏相结合,以应对这两个挑战。 LD3M 结合了一种专为数据集蒸馏而定制的新颖扩散过程,提高了学习合成图像的梯度范数。通过调整扩散步骤的数量,LD3M 还提供了一种控制速度和精度之间权衡的直接方法。我们在几个 ImageNet 子集中以及高分辨率图像 128x128 和 256x256 中评估我们的方法。因此,LD3M 始终优于最先进的蒸馏技术高达 4.8 p.p.。和 4.2 页

Redefining cystoscopy with ai: bladder cancer diagnosis using an efficient hybrid cnn-transformer model
Authors Meryem Amaouche, Ouassim Karrakchou, Mounir Ghogho, Anouar El Ghazzaly, Mohamed Alami, Ahmed Ameur
膀胱癌位列全球诊断最多的十大癌症之列,并且由于复发率高且需要终生随访,因此成为治疗费用最高的癌症之一。诊断的主要工具是膀胱镜检查,这在很大程度上依赖于医生的专业知识和解释。因此,每年都有大量病例未被诊断或误诊为泌尿系感染而被治疗。为了解决这个问题,我们提出了一种用于膀胱癌检测和分割的深度学习方法,该方法将 CNN 与轻量级位置编码自由变压器和双重注意力门结合起来,融合自我注意力和空间注意力以增强特征。本文建议的架构非常高效,适合需要实时推理的医疗场景。

Are Language Models Puzzle Prodigies? Algorithmic Puzzles Unveil Serious Challenges in Multimodal Reasoning
Authors Deepanway Ghosal, Vernon Toh Yan Han, Chia Yew Ken, Soujanya Poria
本文介绍了在视觉问答的背景下解决多模式谜题的新任务。我们提出了一个新的数据集 AlgoPuzzleVQA,旨在挑战和评估多模态语言模型解决算法难题的能力,这些算法难题需要视觉理解、语言理解和复杂的算法推理。我们创建的谜题涵盖了各种数学和算法主题,例如布尔逻辑、组合学、图论、优化、搜索等,旨在评估视觉数据解释和算法问题解决技能之间的差距。该数据集是根据人类编写的代码自动生成的。我们所有的谜题都有精确的解决方案,可以从算法中找到,无需繁琐的人工计算。它确保我们的数据集可以在推理复杂性和数据集大小方面任意扩展。我们的调查表明,GPT4V 和 Gemini 等大型语言模型 LLM 在解谜任务中表现有限。我们发现,在针对大量谜题的多项选择问答设置中,它们的表现几乎是随机的。

ECAP: Extensive Cut-and-Paste Augmentation for Unsupervised Domain Adaptive Semantic Segmentation
Authors Erik Brorsson, Knut kesson, Lennart Svensson, Kristofer Bengtsson
我们考虑用于语义分割的无监督域适应 UDA,其中模型在标记的源数据集上进行训练并适应未标记的目标数据集。不幸的是,当前的自训练方法很容易受到错误预测导致的错误分类伪标签的影响。由于某些类别通常与 UDA 中不太可靠的预测相关,因此在不偏向某些类别的训练的情况下减少此类伪标签的影响是众所周知的困难。为此,我们提出了一种广泛的剪切和粘贴策略 ECAP,通过数据增强来利用可靠的伪标签。具体来说,ECAP 在整个训练过程中维护伪标记目标样本的存储库,并将最可信的样本剪切并粘贴到当前的训练批次中。我们在最新方法 MIC 的基础上实现了 ECAP,并在两个合成到真实域适应基准上提高了其性能。值得注意的是,MIC ECAP 在 Synthia Cityscapes 基准测试中达到了前所未有的 69.1 mIoU 性能。

Temporal Enhanced Floating Car Observers
Authors Jeremias Gerner, Klaus Bogenberger, Stefanie Schmidtner
浮动汽车观察器 FCO 是一种通过部署配备传感器的车辆来检测和定位其他车辆来收集交通数据的创新方法。我们证明,即使 FCO 的渗透率很小,也可以识别给定十字路口的大量车辆。这是通过在微观交通模拟中模拟检测来实现的。此外,利用之前时刻的数据可以增强当前帧中车辆的检测。我们的研究结果表明,利用 20 秒的观察窗口,可以恢复 FCO 在当前时间步长内看不到的最多 20 辆车辆。为了利用这一点,我们开发了一种数据驱动策略,利用检测到的车辆的鸟瞰图 BEV 表示序列和深度学习模型。该方法旨在将当前未检测到的车辆纳入当前视野,从而增强当前检测到的车辆。不同时空架构的结果表明,最多 41 辆车辆可以在其当前位置恢复到当前时间步长。这一增强功能丰富了 FCO 最初可用的信息,从而可以改进对交通状态和指标(例如交通状况)的估计。

Popeye: A Unified Visual-Language Model for Multi-Source Ship Detection from Remote Sensing Imagery
Authors Wei Zhang, Miaoxin Cai, Tong Zhang, Guoqiang Lei, Yin Zhuang, Xuerui Mao
船舶检测需要从遥感RS场景中识别船舶位置。然而,由于不同的成像有效载荷、不同的船舶外观以及复杂的鸟瞰背景干扰,很难建立统一的范式来实现多源船舶检测。因此,在本文中,考虑到大型语言模型LLM具有强大的泛化能力,提出了一种新颖的统一视觉语言模型Popeye,用于遥感图像的多源船舶检测。首先,为了弥合船舶检测的多源图像之间的解释差距,设计了一种新颖的图像指令答案方式,将各种船舶检测方式(例如水平边界框 HBB 、定向边界框 OBB )集成到统一的标记范式中。然后,鉴于此,为所提出的 Popeye 开发了一种跨模态图像解释方法,以增强视觉和语言内容之间的交互理解能力,该方法可以轻松迁移到任何多源船舶检测任务中。随后,由于目标领域的差异,设计了一种知识适应机制,将预训练的视觉语言知识从自然场景适应到RS领域,以进行多源船舶检测。此外,分段任何模型 SAM 也无缝集成到所提出的 Popeye 中,以实现像素级船舶分割,而无需额外的训练成本。

Self-supervised Photographic Image Layout Representation Learning
Authors Zhaoran Zhao, Peng Lu, Xujun Peng, Wenhao Guo
在图像布局表示学习领域,将图像布局转换为简洁矢量形式的关键过程在图像检索、操作和生成等各种应用中变得越来越重要。该领域的大多数方法严重依赖昂贵的标记数据集,并且特别缺乏使其建模和学习方法适应摄影图像布局的特定细微差别。这种缺陷使得摄影图像布局的学习过程不是最佳的。在我们的研究中,我们直接应对这些挑战。我们通过定义封装各种级别的布局信息的基本布局原语并将它们及其互连映射到异构图形结构上来进行创新。该图经过精心设计,可明确捕获像素域内复杂的布局信息。进一步推进,我们引入了新颖的借口任务与定制的损失函数相结合,战略性地设计用于这些布局图的有效自我监督学习。在此基础上,我们开发了一种基于自动编码器的网络架构,能够将这些异构布局图压缩为精确的、降维的布局表示。此外,我们还引入了 LODB 数据集,该数据集具有更广泛的布局类别和更丰富的语义,可以作为评估布局表示学习方法有效性的综合基准。

Unifying Generation and Compression: Ultra-low bitrate Image Coding Via Multi-stage Transformer
Authors Naifu Xue, Qi Mao, Zijian Wang, Yuan Zhang, Siwei Ma
生成压缩技术的最新进展显着提高了压缩数据的感知质量。然而,这些进步主要集中在生成高频细节,往往忽略了生成模型捕获图像内容先验分布的能力,从而阻碍了极端压缩场景 0.05 bpp 中比特率的进一步降低。受无损压缩预测语言模型功能的启发,本文引入了一种新颖的统一图像生成压缩 UIGC 范例,合并了生成和压缩过程。 UIGC 框架的一个关键特征是采用矢量量化 VQ 图像模型进行标记化,以及旨在利用空间上下文信息对先验分布进行建模的多级变压器。因此,双重目的框架有效地利用学习到的先验进行熵估计并协助丢失令牌的再生。

Learning 3D object-centric representation through prediction
Authors John Day, Tushar Arora, Jirui Liu, Li Erran Li, Ming Bo Cai
作为人类核心知识的一部分,对象的表征是支持高级概念和符号推理的心理表征的基石。虽然人类在没有监督的情况下发展出感知 3D 环境中物体的能力,但缺乏学习与人类婴儿面临的类似约束相同的能力集的模型。为此,我们开发了一种新颖的网络架构,它同时学习 1 从离散图像中分割对象,2 推断其 3D 位置,3 感知深度,同时仅使用大脑直接可用的信息作为训练数据,即图像序列和自我运动。核心思想是将物体视为视觉输入的潜在原因,大脑利用视觉输入对未来场景进行有效的预测。

CMDA: Cross-Modal and Domain Adversarial Adaptation for LiDAR-Based 3D Object Detection
Authors Gyusam Chang, Wonseok Roh, Sujin Jang, Dongwook Lee, Daehyun Ji, Gyeongrok Oh, Jinsun Park, Jinkyu Kim, Sangpil Kim
最近基于 LiDAR 的 3D 对象检测 3DOD 方法显示出有希望的结果,但它们通常不能很好地推广到源或训练数据分布之外的目标域。为了减少此类域差距,从而使 3DOD 模型更具通用性,我们引入了一种新颖的无监督域适应 UDA 方法,称为 CMDA,该方法利用图像模态(即相机图像)中的视觉语义线索作为有效的语义桥梁来关闭域跨模式鸟瞰 BEV 表示中的差距。此外,我们还引入了一种基于自训练的学习策略,其中模型经过对抗性训练以生成域不变特征,这破坏了特征实例是来自源域还是来自看不见的目标域的区分。总体而言,我们的 CMDA 框架指导 3DOD 模型为新颖的数据分布生成信息丰富且领域自适应的特征。

Multimodal Transformer for Comics Text-Cloze
Authors Emanuele Vivoli, Joan Lafuente Baeza, Ernest Valveny Llobet, Dimosthenis Karatzas
这项工作探索了漫画中的结束任务,漫画是一种视觉和文本元素错综复杂地交织在一起的媒介。具体来说,文本完形填空是指在给定相邻面板的情况下选择要在漫画面板中使用的正确文本的任务。由于 OCR 准确性有限和固有的模型限制,基于循环神经网络的传统方法一直难以完成这项任务。我们引入了一种新颖的多模态大语言模型多模态 LLM 架构,专为文本完形填空而设计,在其简单变体和困难变体中均比现有最先进的模型实现了 10 倍的改进。我们方法的核心是基于领域适应 ResNet 50 的视觉编码器,使用 SimCLR 以自我监督的方式针对漫画领域进行微调。该编码器仅用五分之一的参数即可提供与更复杂模型相当的结果。此外,我们还为此数据集发布了新的 OCR 注释,提高了模型输入质量,并带来了另一项改进。

MeaCap: Memory-Augmented Zero-shot Image Captioning
Authors Zequn Zeng, Yan Xie, Hao Zhang, Chiyu Chen, Zhengjue Wang, Bo Chen
没有良好配对的图像文本数据的零镜头图像字幕 IC 可以分为两类:免费训练和仅文本训练。一般来说,这两类方法通过集成预训练的视觉语言模型(例如用于图像文本相似性评估的 CLIP 和用于字幕生成的预训练的语言模型 LM)来实现零样本 IC。它们之间的主要区别在于是否使用文本语料库来训练LM。尽管取得了有吸引力的表现对于某些指标,现有方法经常表现出一些常见的缺点。无训练的方法往往会产生幻觉,而仅文本训练往往会失去泛化能力。为了向前推进,在本文中,我们提出了一种新颖的记忆增强零镜头图像字幕框架 MeaCap 。具体来说,配备文本记忆,我们引入检索然后过滤模块来获取与图像高度相关的关键概念。通过在关键词中部署我们提出的记忆增强视觉相关融合分数来句子 LM,MeaCap 可以生成以概念为中心的字幕,与图像保持高度一致性,同时减少幻觉和更多世界知识。 MeaCap 框架在一系列零样本 IC 设置上实现了最先进的性能。

Multi-Grained Cross-modal Alignment for Learning Open-vocabulary Semantic Segmentation from Text Supervision
Authors Yajie Liu, Pu Ge, Qingjie Liu, Di Huang
最近,从文本监督中学习开放词汇语义分割已经取得了有希望的下游性能。然而,由于缺乏密集注释,当前的方法遇到了对齐粒度差距,其中它们在训练期间学习粗略的图像区域文本对齐,但在推理时执行组像素级预测。这种差异导致学习效率不佳和零样本分割结果较差。在本文中,我们介绍了多粒度交叉模态对齐 MGCA 框架,该框架显式地学习像素级对齐以及对象和区域级对齐,以弥合粒度间隙,而无需任何密集注释。具体来说,MGCA 巧妙地在图像文本对上构建伪多粒度语义对应,并与硬采样策略配合,以促进细粒度的跨模态对比学习。此外,我们指出了现有的组和像素预测单元在下游分割中的缺陷,并开发了一种自适应语义单元,可以有效地缓解它们的困境,包括欠分割和过分割。

Causal Prototype-inspired Contrast Adaptation for Unsupervised Domain Adaptive Semantic Segmentation of High-resolution Remote Sensing Imagery
Authors Jingru Zhu, Ya Guo, Geng Sun, Liang Hong, Jie Chen
高分辨率遥感影像 HRSI 的语义分割受到域偏移的影响,导致模型在另一个看不见的域中表现不佳。无监督域自适应UDA语义分割旨在将在标记源域上训练的语义分割模型适应于未标记目标域。然而,现有的UDA语义分割模型倾向于根据源域和目标域数据中标签相关的统计信息来对齐像素或特征,并进行相应的预测,这导致预测结果的不确定性和脆弱性。在本文中,我们提出了一种因果原​​型启发的对比适应 CPCA 方法来探索不同 HRSI 域及其语义标签之间的不变因果机制。它首先通过因果特征分离模块从源域图像和目标域图像中分离出因果特征和偏差特征。然后,使用因果原型对比模块来学习领域不变的因果特征。为了进一步去关联因果和偏差特征,引入了因果干预模块来干预偏差特征以生成反事实的无偏差样本。通过强制因果特征满足可分离性、不变性和干预性原则,CPCA可以模拟源域和目标域的因果因素,并根据因果特征对目标域做出决策,可以观察到泛化能力的提高。

MolNexTR: A Generalized Deep Learning Model for Molecular Image Recognition
Authors Yufan Chen, Ching Ting Leung, Yong Huang, Jianwei Sun, Hao Chen, Hanyu Gao
在化学结构识别领域,将分子图像转换为图形结构和 SMILES 字符串的任务是一项重大挑战,这主要是由于化学文献中普遍存在不同的绘图风格和惯例。为了弥补这一差距,我们提出了 MolNexTR,这是一种新颖的图像到图形深度学习模型,它协作融合了 ConvNext(一种强大的卷积神经网络变体)和 Vision TRansformer 的优势。这种集成有助于从分子图像中更细致地提取局部和全局特征。 MolNexTR 可以同时预测原子和键并了解它们的布局规则。它还擅长灵活地整合符号化学原理来辨别手性和破译缩写结构。我们进一步结合了一系列先进的算法,包括改进的数据增强模块、图像污染模块和后处理模块以获得最终的 SMILES 输出。这些模块协同增强了模型针对真实文献中不同风格的分子图像的鲁棒性。在我们的测试集中,MolNexTR表现出了卓越的性能,准确率达到81 97,标志着分子结构识别领域的重大进步。科学贡献 MolNexTR 是一种新颖的图像到图形模型,它采用独特的双流编码器来提取复杂的分子图像特征,并结合化学规则来预测原子和键,同时了解原子和键布局规则。

Adversarial Infrared Geometry: Using Geometry to Perform Adversarial Attack against Infrared Pedestrian Detectors
Authors Kalibinuer Tiliwalidi
目前,红外成像技术得到广泛应用,其中红外物体检测技术的地位日益凸显。虽然之前的研究深入研究了对红外物体探测器的物理攻击,但这些技术的实施仍然很复杂。例如,某些方法需要使用灯泡板或红外 QR 套装作为扰动来执行攻击,这需要昂贵的优化和繁琐的部署过程。其他方法涉及利用不规则气凝胶作为红外攻击的物理扰动,尽管以优化费用和可感知性问题为代价。在这项研究中,我们提出了一种新型红外物理攻击,称为对抗红外几何textbf AdvIG,它通过对不同的几何形状直线、三角形、椭圆进行建模并使用粒子群优化 PSO 优化其物理参数来促进高效的黑盒查询攻击。进行了大量的实验来评估 AdvIG 的有效性、隐蔽性和鲁棒性。在数字攻击实验中,直线、三角形和椭圆形图案的攻击成功率分别为93.1、86.8和100.0,平均查询次数分别为71.7、113.1和2.57,从而证实了AdvIG的效率。通过物理攻击实验来评估AdvIG在不同距离下的攻击成功率。平均而言,直线、三角形和椭圆的攻击成功率分别为 61.1 、61.2 和 96.2 。进一步进行实验来全面分析 AdvIG,包括消融实验、转移攻击实验和对抗性防御机制。

Portraying the Need for Temporal Data in Flood Detection via Sentinel-1
Authors Xavier Bou, Thibaud Ehret, Rafael Grompone von Gioi, Jeremy Anger
在遥感数据中识别洪水影响区域是地球观测中分析洪水影响和推动响应的关键问题。虽然文献中提出了多种方法,但可用的洪水检测数据集存在两个主要局限性:1、通常观察到缺乏区域变化;2、它们需要从单个图像中区分永久性水体和洪水区域,这成为一个不适定的设置。因此,我们通过提供围绕每个洪水事件一年的 Sentinel 1 观测,将全球多样化的 MMFlood 数据集扩展到多日期。令我们惊讶的是,我们注意到在观察整个图像序列时,MMFlood 中的淹没像素的定义不一致。因此,我们将洪水检测任务重新定义为时间异常检测问题,其中异常水体是从 Sentinel 1 时间序列中分割出来的。

Harnessing Meta-Learning for Improving Full-Frame Video Stabilization
Authors Muhammad Kashif Ali, Eun Woo Im, Dongjin Kim, Tae Hyun Kim
视频稳定是一个长期存在的计算机视觉问题,特别是用于视频稳定的像素级合成解决方案,它合成全帧,增加了该任务的复杂性。这些技术旨在通过合成全帧来稳定视频,同时增强所考虑视频的稳定性。由于每个视频序列中存在的独特运动轮廓和视觉内容的独特混合,这加剧了任务的复杂性,使得固定参数的鲁棒泛化变得困难。在我们的研究中,我们引入了一种新颖的方法,通过使这些模型适应各个输入视频序列来增强视频稳定的像素级合成解决方案的性能。所提出的调整利用测试期间可访问的低级视觉提示来提高生成视频的稳定性和质量。我们通过对这些模型之一进行简单的微调来强调测试时间适应方法的有效性,然后通过元学习技术的集成来显着提高稳定性。值得注意的是,仅通过一个适应步骤就可以实现显着的改进。

GSNeRF: Generalizable Semantic Neural Radiance Fields with Enhanced 3D Scene Understanding
Authors Zi Ting Chou, Sheng Yu Huang, I Jieh Liu, Yu Chiang Frank Wang
神经辐射场 NeRF 利用多视图输入来合成新颖的视图图像,已成为 3D 视觉领域的热门研究课题。在这项工作中,我们引入了可泛化语义神经辐射场 GSNeRF ,它独特地将图像语义纳入合成过程,以便可以为未见过的场景生成新的视图图像和相关的语义图。我们的 GSNeRF 由语义地理推理和深度引导视觉渲染两个阶段组成。前者能够观察多视图图像输入,以从场景中提取语义和几何特征。在生成的图像几何信息的指导下,后者以改进的性能执行图像和语义渲染。

HMD-Poser: On-Device Real-time Human Motion Tracking from Scalable Sparse Observations
Authors Peng Dai, Yang Zhang, Tao Liu, Zhen Fan, Tianyuan Du, Zhuo Su, Xiaozheng Zheng, Zeming Li
在 Meta Quest 和 PICO 等独立 VR 头戴式显示器 HMD 上实现实时人体运动跟踪尤其具有挑战性。在本文中,我们提出了 HMD Poser,这是第一个使用 HMD 和身体佩戴 IMU 的可扩展稀疏观测来恢复全身运动的统一方法。特别是,它可以支持多种输入场景,例如HMD、HMD 2IMU、HMD 3IMU等。输入的可扩展性可以满足用户对高跟踪精度和易于佩戴的选择。 HMD Poser中提出了一种轻量级的时空特征学习网络,以保证模型在HMD上实时运行。此外,HMD Poser还提出了在线体形估计,以提高身体关节的位置精度。在具有挑战性的 AMASS 数据集上进行的大量实验结果表明,HMD Poser 在准确性和实时性能方面均取得了最先进的结果。我们还构建了一个新的自由舞蹈运动数据集来评估 HMD Poser 的设备性能,并研究合成数据和真实捕获的传感器数据之间的性能差距。最后,我们在商用 HMD 上展示了具有实时 Avatar 驾驶应用程序的 HMD Poser。

Task Attribute Distance for Few-Shot Learning: Theoretical Analysis and Applications
Authors Minyang Hu, Hong Chang, Zong Guo, Bingpeng Ma, Shiguan Shan, Xilin Chen
Few shot Learning FSL 旨在利用 emph 相关训练任务的经验,利用很少的标记样本来学习新任务。在本文中,我们试图通过深入研究两个关键问题来理解 FSL 1 如何量化 emph 训练和 emph 新颖任务之间的关系 2 这种关系如何影响不同模型的 emph 适应新颖任务的难度 要回答这两个问题,我们引入了基于属性的任务属性距离 TAD 作为量化任务相关性的度量。与许多现有指标不同,TAD 与模型无关,因此适用于不同的 FSL 模型。然后,我们利用 TAD 度量在任务相关性和任务适应难度之间建立理论联系。通过推导新任务的泛化误差界,我们发现 TAD 如何衡量 FSL 模型新任务的适应难度。为了验证我们的 TAD 指标和理论发现,我们在三个基准上进行了实验。我们的实验结果证实,TAD 指标有效地量化了任务相关性,并反映了各种 FSL 方法对新任务的适应难度,即使其中一些方法没有明确学习属性或人类注释的属性不可用。最后,我们提出了所提出的 TAD 度量数据增强和测试时间干预的两个应用,进一步验证了其有效性和普遍适用性。

Extend Your Own Correspondences: Unsupervised Distant Point Cloud Registration by Progressive Distance Extension
Authors Quan Liu, Hongzi Zhu, Zhenxi Wang, Yunsong Zhou, Shan Chang, Minyi Guo
从一对远距离车辆收集的点云配准提供了驾驶场景的全面且准确的 3D 视图,这对于驾驶安全相关应用至关重要,但现有文献存在昂贵的姿态标签获取以及缺乏推广到新数据的问题分布。在本文中,我们提出了 EYOC,一种无监督的远程点云配准方法,可以动态适应新的点云分布,不需要全局姿态标签。 EYOC的核心思想是以渐进的方式训练特征提取器,在每一轮中,用近点云对训练的特征提取器可以标记稍远的点云对,从而实现对如此远的点云对的自我监督。此过程持续进行,直到派生的提取器可用于注册远处的点云。特别是,为了实现高保真对应标签生成,我们设计了一种有效的空间过滤方案来选择最具代表性的对应来注册点云对,然后利用对齐的点云来发现更正确的对应。实验表明,EYOC 可以以较低的训练成本实现与最先进的监督方法相当的性能。

Dcl-Net: Dual Contrastive Learning Network for Semi-Supervised Multi-Organ Segmentation
Authors Lu Wen, Zhenghao Feng, Yun Hou, Peng Wang, Xi Wu, Jiliu Zhou, Yan Wang
半监督学习是缓解丰富注释数据集严格要求的有效措施,特别是对于具有挑战性的多器官分割。然而,大多数现有的 SSL 方法独立预测单个图像中的像素,忽略图像和类别之间的关系。在本文中,我们提出了一种用于半监督 MoS 的两阶段双对比学习网络,它利用全局和局部对比学习来加强图像和类别之间的关系。具体来说,在第一阶段,我们开发了一种相似性引导的全局对比学习,以探索图像之间隐含的连续性和相似性并学习全局上下文。然后,在第二阶段,我们提出了一种器官感知的局部对比学习,以进一步吸引班级代表。为了减轻计算负担,我们引入了掩模中心计算算法来压缩局部对比学习的类别表示。

VastTrack: Vast Category Visual Object Tracking
Authors Liang Peng, Junyuan Gao, Xinran Liu, Weihong Li, Shaohua Dong, Zhipeng Zhang, Heng Fan, Libo Zhang
在本文中,我们介绍了一个名为 VastTrack 的新颖基准,旨在通过包含丰富的类和视频来促进更通用的视觉跟踪的开发。 VastTrack 拥有几个有吸引力的属性 1 Vast 对象类别。特别是,它涵盖了 2,115 个类别的目标对象,大大超过了现有流行基准的对象类别,例如具有 563 个类别的 GOT 10k 和具有 70 个类别的 LaSOT 。有了如此庞大的对象类,我们期望学习更通用的对象跟踪。 2 规模更大。与当前基准相比,VastTrack 提供了 50,610 个序列、420 ​​万帧,这使其成为迄今为止视频数量最多的基准,因此有利于在深度学习时代训练更强大的视觉跟踪器。 3 丰富的注释。除了传统的边界框注释之外,VastTrack 还提供视频的语言描述。 VastTrack 丰富的注释支持仅视觉跟踪和视觉语言跟踪的开发。为确保标注精准,所有视频均经过多轮仔细检查和细化手动标注。为了了解现有跟踪器的性能并为未来的比较提供基线,我们广泛评估了 25 个具有代表性的跟踪器。毫不奇怪,由于缺乏丰富的类别和来自不同场景的视频进行训练,结果与当前数据集相比显着下降,并且需要付出更多努力来改进一般跟踪。

NoiseCollage: A Layout-Aware Text-to-Image Diffusion Model Based on Noise Cropping and Merging
Authors Takahiro Shirakawa, Seiichi Uchida
布局感知文本到图像生成是一项生成多对象图像的任务,这些图像除了文本条件之外还反映布局条件。当前的布局感知文本到图像扩散模型仍然存在一些问题,包括文本和布局条件之间的不匹配以及生成图像的质量下降。本文提出了一种新颖的布局感知文本到图像扩散模型,称为 NoiseCollage 来解决这些问题。在去噪过程中,NoiseCollage 独立估计各个对象的噪声,然后将它们裁剪并合并为单个噪声。此操作有助于避免条件不匹配,换句话说,它可以将正确的对象放在正确的位置。定性和定量评估表明,NoiseCollage 的性能优于多种最先进的模型。这些成功的结果表明噪声的裁剪和合并操作是控制图像生成的合理策略。我们还展示了 NoiseCollage 可以与 ControlNet 集成,以使用边缘、草图和姿势骨架作为附加条件。实验结果表明,这种集成提高了 ControlNet 的布局精度。

Continual Segmentation with Disentangled Objectness Learning and Class Recognition
Authors Yizheng Gong, Siyue Yu, Xiaoyang Wang, Jimin Xiao
大多数连续分割方法将问题作为每像素分类任务来解决。然而,这样的范式非常具有挑战性,我们发现具有内置对象性的基于查询的分割器与每像素分割器相比具有固有的优势,因为对象性具有很强的迁移能力和抗遗忘性。基于这些发现,我们提出了 CoMasTRe,将连续分割分为两个阶段,即抗遗忘的连续对象性学习和经过充分研究的连续分类。 CoMasTRe 在第一阶段使用两阶段分段器学习类不可知掩模建议,并将识别留给第二阶段。在不断学习的过程中,采用简单而有效的提炼来强化客观性。为了进一步减轻旧类的遗忘,我们设计了一种适合分割的多标签类蒸馏策略。我们评估了 CoMasTRe 在 PASCAL VOC 和 ADE20K 上的有效性。大量的实验表明,我们的方法在两个数据集上都优于基于像素和基于查询的方法。

Multi-task Learning for Real-time Autonomous Driving Leveraging Task-adaptive Attention Generator
Authors Wonhyeok Choi, Mingyu Shin, Hyukzae Lee, Jaehoon Cho, Jaehyeon Park, Sunghoon Im
由于即时决策和快速响应的必要性,实时处理在自动驾驶系统中至关重要。在现实世界场景中,自动驾驶车辆不断地承担着解释周围环境、分析复杂传感器数据并在瞬间做出决策的任务,以通过大量计算机视觉任务确保安全。在本文中,我们提出了一种新的实时多任务网络,它擅长于三个重要的自动驾驶任务:单目 3D 对象检测、语义分割和密集深度估计。为了应对多任务学习中普遍存在的负迁移的挑战,我们引入了任务自适应注意力生成器。该生成器旨在自动识别三个任务之间的相互关系并安排任务共享模式,同时利用硬参数共享方法的效率。据我们所知,所提出的模型在同时处理多个任务(特别是 3D 对象检测)同时保持实时处理速度的能力方面处于领先地位。我们经过严格优化的网络在 Cityscapes 3D 数据集上进行测试时,始终优于各种基线模型。

FLAME Diffuser: Grounded Wildfire Image Synthesis using Mask Guided Diffusion
Authors Hao Wang, Sayed Pedram Haeri Boroujeni, Xiwen Chen, Ashish Bastola, Huayu Li, Abolfazl Razi
近年来机器学习的兴起给广泛的火灾探测等各个研究领域带来了好处。然而,小物体检测和稀有物体检测仍然是一个挑战。为了解决这个问题,我们提出了一个数据集自动机,它可以使用扩散模型生成地面实况配对数据集。具体来说,我们引入了一种掩模引导扩散框架,可以将野火融合到现有图像中,同时可以精确控制火焰位置和大小。预先,为了填补特定场景下野火图像数据集缺失的空白,我们通过控制文本提示和输入图像来改变合成图像的背景。此外,为了解决色调问题或众所周知的域转移问题,我们应用 CLIP 模型来过滤生成的大量数据集以保持质量。

A Density-Guided Temporal Attention Transformer for Indiscernible Object Counting in Underwater Video
Authors Cheng Yen Yang, Hsiang Wei Huang, Zhongyu Jiang, Hao Wang, Farron Wallace, Jenq Neng Hwang
由于视觉界的最新发展,密集物体计数或人群计数已经取得了长足的进步。然而,难以辨别的物体计数一直是一个挑战,其目的是计算与周围环境混合的目标数量。基于图像的物体计数数据集已经成为当前公开数据集的主流。因此,我们提出了一个名为 YoutubeFish 35 的大规模数据集,其中包含总共 35 个每秒高帧的高清视频序列,以及跨选定各种场景的超过 150,000 个带注释的中心点。出于基准测试的目的,我们选择了三种主流的密集对象计数方法,并在新收集的数据集上仔细评估它们。

Slot Abstractors: Toward Scalable Abstract Visual Reasoning
Authors Shanka Subhra Mondal, Jonathan D. Cohen, Taylor W. Webb
抽象视觉推理是人类特有的能力,可以识别从对象特征中抽象出来的关系模式,并将这些模式系统地推广到看不见的问题。最近的工作通过集成用于提取以对象为中心的表示的基于槽的方法以及用于关系抽象的强归纳偏差,在涉及多对象输入的视觉推理任务中展示了强大的系统泛化。然而,这种方法仅限于包含单个规则的问题,并且无法扩展到包含大量对象的视觉推理问题。最近的其他工作提出了 Abstractors,这是 Transformer 的扩展,它包含了强关系归纳偏差,从而继承了 Transformer 的可扩展性和多头架构,但尚未证明这种方法如何应用于多对象视觉输入。在这里,我们结合了上述方法的优点,提出了 Slot Abstractors,这是一种抽象视觉推理的方法,可以扩展到涉及大量对象及其之间的多种关系的问题。

DLP-GAN: Learning to Draw Modern Chinese Landscape Photos with Generative Adversarial Network
Authors Xiangquan Gui, Binxuan Zhang, Li Li, Yi Yang
中国山水画具有独特的艺术风格,其绘画技法无论是色彩的运用还是对物体的写实表现都具有高度的抽象性。以前的方法侧重于从现代照片转移到古代水墨画。然而,将风景画转化为现代照片却很少受到关注。为了解决这些问题,在本文中,我们 1 提出了 DLP GAN textbf D raw Modern Chinese textbf L 和scape textbf P hotos with textbf G generative textbf A dversarial textbf Network ,一种具有新颖的非对称循环映射的无监督跨域图像翻译框架, 2 引入基于密集融合模块的生成器来匹配不同的平移方向。此外,提出了双重一致性损失来平衡模型绘画的现实性和抽象性。这样,我们的模型就可以画出现代意义上的风景照片和素描了。最后,根据我们收集的现代景观和草图数据集,我们将模型生成的图像与其他基准进行比较。

D4C glove-train: solving the RPM and Bongard-logo problem by distributing and Circumscribing concepts
Authors Ruizhuo Song, Beiming Yuan
本文介绍了抽象推理领域的重大进展,特别是针对 Raven 的渐进矩阵 RPM 和 Bongard Logo 问题。我们首先介绍 D2C,这是一种重新定义这些领域中的概念边界并弥合高级概念与其低维表示之间的差距的方法。利用这个基础,我们提出了 D3C,一种解决 Bongard Logo 问题的新颖方法。 D3C 估计图像表示的分布并测量它们的 Sinkhorn 距离,以实现显着的推理准确性。这种创新方法为图像之间的关系提供了新的见解,并推进了抽象推理的最新技术水平。为了在不牺牲性能的情况下进一步提高计算效率,我们引入了 D3C cos。 D3C 的这种变体限制了分布距离,为 RPM 问题提供了计算效率更高的解决方案,同时保持了高精度。此外,我们还推出了 Lico Net,这是一个集成了 D3C 和 D3C cos 的 RPM 基线网络。通过估计和约束正则性表示的分布,Lico Net 解决了问题解决和可解释性挑战,实现了最先进的性能。最后,我们用 D4C 扩展了我们的方法,这是一种对抗性方法,与 D2C 相比,它进一步细化了概念边界。 D4C 专为 RPM 和 Bongard Logo 问题量身定制,在解决抽象推理的挑战方面展示了显着的改进。

HDRFlow: Real-Time HDR Video Reconstruction with Large Motions
Authors Gangwei Xu, Yujin Wang, Jinwei Gu, Tianfan Xue, Xin Yang
从通过交替曝光捕获的图像序列重建高动态范围 HDR 视频具有挑战性,特别是在存在大型相机或物体运动的情况下。现有方法通常使用光流或注意机制来对齐低动态范围序列以进行消重影。然而,它们通常难以处理大型复杂运动并且计算成本昂贵。为了应对这些挑战,我们提出了一种专为实时 HDR 视频重建而定制的强大且高效的流量估计器,名为 HDRFlow。 HDRFlow具有三种新颖的设计:HDR域对齐损失HALoss、具有多尺寸大内核MLK的高效流网络以及新的HDR流训练方案。 HALoss 监督我们的流网络来学习面向 HDR 的流,以便在饱和和黑暗区域中进行准确对齐。 MLK 可以以可忽略不计的成本有效地模拟大型运动。此外,我们将合成数据 Sintel 纳入我们的训练数据集中,利用其提供的前向流和我们生成的后向流来监督我们的流网络,从而增强我们在大运动区域的性能。大量实验表明,我们的 HDRFlow 在标准基准测试中优于以前的方法。

Towards Understanding Cross and Self-Attention in Stable Diffusion for Text-Guided Image Editing
Authors Bingyan Liu, Chengyu Wang, Tingfeng Cao, Kui Jia, Jun Huang
深度文本到图像合成 TIS 模型(例如稳定扩散)最近在创意文本到图像生成方面广受欢迎。然而,对于特定领域的场景,调整免费的文本引导图像编辑 TIE 对于应用程序开发人员来说更为重要,他们通过在生成过程中操作注意层中的特征组件来修改图像中的对象或对象属性。然而,人们对这些注意力层学到了什么语义以及注意力图的哪些部分有助于图像编辑的成功却知之甚少。在本文中,我们进行了深入的探测分析,并证明稳定扩散中的交叉注意图通常包含可能导致编辑失败的对象属性信息。相比之下,自注意力图在转换为目标图像期间保留源图像的几何和形状细节方面发挥着至关重要的作用。我们的分析为理解扩散模型中的交叉和自注意力图提供了宝贵的见解。此外,根据我们的发现,我们简化了流行的图像编辑方法,并提出了一种更直接、更稳定、更高效的免调整程序,该程序仅在去噪过程中修改指定注意层的自注意图。

LEAD: Learning Decomposition for Source-free Universal Domain Adaptation
Authors Sanqing Qu, Tianpei Zou, Lianghua He, Florian R hrbein, Alois Knoll, Guang Chen, Changjun Jiang
通用域适应 UniDA 的目标是在存在协变量和标签转移的情况下进行知识转移。最近,出现了无源通用域适配SF UniDA,无需访问源数据即可实现UniDA,由于数据保护策略,这往往更加实用。主要挑战在于确定协变量移位样本是否属于目标私有未知类别。现有方法通过手工阈值处理或开发耗时的迭代聚类策略来解决这个问题。在本文中,我们提出了一种 LEArning Decomposition LEAD 的新思想,它将特征解耦为源已知和未知组件,以识别目标私有数据。从技术上讲,LEAD 最初利用正交分解分析进行特征分解。然后,LEAD 构建实例级决策边界以自适应地识别目标私有数据。跨 UniDA 各种场景的大量实验证明了 LEAD 的有效性和优越性。值得注意的是,在 VisDA 数据集上的 OPDA 场景中,LEAD 的总体 H 分数比 GLC 高出 3.5 分,并减少了 75 倍推导伪标记决策边界的时间。此外,LEAD 的吸引力还在于它是对大多数现有方法的补充。

Scene Depth Estimation from Traditional Oriental Landscape Paintings
Authors Sungho Kang, YeongHyeon Park, Hyunkyu Park, Juneho Yi
绘画中的场景深度估计可以简化 3D 雕塑创作的过程,使视障人士能够通过触觉欣赏绘画。然而,由于东方山水画图像描绘深度的方法独特且保存较差,测量深度极具挑战性。为了解决东方山水画图像的场景深度估计问题,我们提出了一种新颖的框架,该框架由两步图像到图像转换方法和前端基于 CLIP 的图像匹配组成,以预测与给定最匹配的真实场景图像东方山水画形象。然后,我们对生成的真实场景图像采用预先训练的 SOTA 深度估计模型。第一步,CycleGAN 将东方山水画图像转换为伪真实场景图像。我们利用 CLIP 将风景照片图像与东方山水画图像进行语义匹配,以无监督的方式训练 CycleGAN。然后,将伪实景图像和东方山水画图像输入到DiffuseIT中,在第二步中预测最终的实景图像。最后,我们使用预先训练的深度估计模型(例如 MiDaS)测量生成的真实场景图像的深度。实验结果表明,我们的方法足以预测与东方山水画图像相对应的真实场景图像。据我们所知,这是第一个测量东方山水画图像深度的研究。我们的研究有可能帮助视障人士以多种方式体验绘画。

Causality-based Cross-Modal Representation Learning for Vision-and-Language Navigation
Authors Liuyi Wang, Zongtao He, Ronghao Dang, Huiyi Chen, Chengju Liu, Qijun Chen
视觉和语言导航 VLN 由于其在现实世界场景中的潜在应用,近年来引起了广泛的研究兴趣。然而,现有的 VLN 方法难以解决虚假关联的问题,导致泛化能力较差,可见环境和未见环境之间存在显着的性能差距。在本文中,我们通过提出一个基于因果学习范式的统一框架 CausalVLN 来应对这一挑战,以训练能够学习无偏特征表示的鲁棒导航器。具体来说,我们使用结构化因果模型 SCM 建立了关于 VLN 中视觉和语言混杂因素的合理假设。在此基础上,我们提出了一种基于迭代后门的表示学习 IBRL 方法,该方法允许对混杂因素进行适应性和有效的干预。此外,我们引入了视觉和语言后门因果编码器,以在训练和验证过程中实现多模态的无偏特征表达,从而增强代理在不同环境中泛化的能力。在三个 VLN 数据集 R2R、RxR 和 REVERIE 上的实验展示了我们提出的方法相对于之前最先进方法的优越性。

Contrastive Learning of Person-independent Representations for Facial Action Unit Detection
Authors Yong Li, Shiguang Shan
面部动作单元AU检测旨在对面部图像中存在的AU进行分类,长期以来一直受到AU注释不足的困扰。在本文中,我们的目标是通过在对比学习范式中从大量未标记的面部视频中学习 AU 表示来缓解这种数据稀缺问题。我们以两倍的形式制定自监督 AU 表示学习信号 1 AU 表示应该在短视频剪辑中进行明智的帧区分 2 从不同身份采样的面部帧,但显示类似的面部 AU 应该具有一致的 AU 表示。为了实现这些目标,我们建议对比学习视频剪辑中的 AU 表示,并设计一种跨身份重建机制来学习与人无关的表示。特别地,我们采用基于边缘的时间对比学习范式来感知由连续输入面部帧组成的剪辑内的时间AU连贯性和演化特征。此外,跨身份重建机制有助于推送来自不同身份的面孔,但在潜在嵌入空间中显示类似的 AU。三个公共 AU 数据集上的实验结果表明,学习到的 AU 表示对于 AU 检测具有区分性。

Performance Evaluation of Semi-supervised Learning Frameworks for Multi-Class Weed Detection
Authors Jiajia Li, Dong Chen, Xunyuan Yin, Zhaojian Li
有效的杂草控制对于优化作物产量和提高农产品质量起着至关重要的作用。然而,对除草剂施用的依赖不仅对环境构成严重威胁,而且还促进了抗性杂草的出现。幸运的是,机器学习和深度学习在精准杂草管理方面的最新进展提供了一种可持续的替代方案。尽管取得了巨大进步,但现有算法主要是基于监督学习方法开发的,这种方法通常需要带有手动标记注释的大规模数据集,这既费时又费力。因此,标签高效学习方法,特别是半监督学习,在更广泛的计算机视觉领域获得了越来越多的关注,并表现出了有希望的性能。这些方法旨在利用少量标记数据样本和大量未标记样本来开发高性能模型,与在大量标记数据样本上训练的监督学习模型相当。在这项研究中,我们使用两个众所周知的目标检测框架,即 FCOS 和 Faster RCNN,评估了用于多类杂草检测的半监督学习框架的有效性。具体来说,我们评估了一个具有改进的伪标签生成模块的通用学生教师框架,以便为未标记的数据生成可靠的伪标签。为了增强泛化能力,采用了集成学生网络来促进训练过程。实验结果表明,与监督方法相比,该方法在 CottenWeedDet3 和 CottonWeedDet12 中仅使用 10 个标记数据即可分别实现约 76 和 96 的检测精度。

F$^3$Loc: Fusion and Filtering for Floorplan Localization
Authors Changan Chen, Rui Wang, Christoph Vogel, Marc Pollefeys
在本文中,我们提出了一种有效的数据驱动解决方案,用于在平面图内进行自我定位。平面图数据易于获得、长期持久且对视觉外观的变化具有固有的鲁棒性。我们的方法不需要对每个地图和位置进行重新训练,也不需要感兴趣区域的大型图像数据库。我们提出了一种新颖的概率模型,由观察和新颖的时间过滤模块组成。观察模块采用基于光线的高效表示进行内部操作,由一个单视图模块和一个多视图模块组成,用于预测图像的水平深度并融合其结果,以受益于任一方法提供的优势。我们的方法在传统的消费类硬件上运行,并克服了通常需要直立图像的竞争方法的常见限制。

Enhancing Vision-Language Pre-training with Rich Supervisions
Authors Yuan Gao, Kunyu Shi, Pengkai Zhu, Edouard Belval, Oren Nuriel, Srikar Appalaraju, Shabnam Ghadar, Vijay Mahadevan, Zhuowen Tu, Stefano Soatto
我们提出使用 ScreenShots S4 进行强监督预训练,这是一种使用来自大规模网络屏幕截图渲染的数据的视觉语言模型的新颖预训练范例。使用网络屏幕截图可以解锁视觉和文本线索的宝库,而使用图像文本对时则不会出现这些线索。在S4中,我们利用HTML元素固有的树形结构层次结构和空间定位,精心设计了10个具有大规模注释数据的预训练任务。这些任务类似于跨不同领域的下游任务,并且注释的获取成本低廉。

Learning Zero-Shot Material States Segmentation, by Implanting Natural Image Patterns in Synthetic Data
Authors Sagi Eppel, Jolina Li, Manuel Drehwald, Alan Aspuru Guzik
对材料及其状态的视觉理解和分割是理解物理世界的基础。材料形成的无限纹理、形状和通常模糊的边界使得这项任务特别难以概括。无论是识别表面的潮湿区域、岩石中的矿物质、植物中的感染区域还是水中的污染,每种物质状态都有其独特的形式。对于神经网络来说,要学习类别不可知的材料分割,有必要首先收集和注释捕获这种复杂性的数据。收集现实世界的图像和手动注释受到成本和手工劳动精度有限的限制。相比之下,合成数据非常准确且几乎免费,但无法复制物质世界的巨大多样性。在这项工作中,我们提出了一种方法来弥合这一关键差距,即将从现实世界图像中提取的模式植入到合成数据中。因此,从自然图像中自动收集的图案用于将材质映射到合成场景中。这种无监督的方法允许生成的数据捕获现实世界的巨大复杂性,同时保持合成数据的精度和规模。我们还提出了第一个与类别无关的材料状态分割的通用基准。基准图像包含各种物质状态的现实世界图像,从烹饪、食物、岩石、建筑、植物和液体,每种状态都处于不同的状态:湿、干、染色、煮熟、烧毁、磨损、生锈、沉积物、泡沫……。注释包括具有相似但不相同材料的区域之间的部分相似性,以及仅对完全相同材料状态的点进行硬分割。

CenterDisks: Real-time instance segmentation with disk covering
Authors Katia Jodogne Del Litto, Guillaume Alexandre Bilodeau
提高实例分割方法的准确性通常是以牺牲速度为代价的。使用更粗糙的表示,我们可以减少参数的数量,从而获得实时掩模。在本文中,我们从集合覆盖问题中获得灵感来预测掩模近似值。给定感兴趣对象的地面实况二进制掩码作为训练输入,我们的方法学习预测磁盘对这些对象的大致覆盖范围,而无需对其位置或半径进行监督。每个对象由固定数量的不同半径的圆盘表示。在学习阶段,我们将半径视为与标准差成正比,以便计算在一组二维高斯函数而不是磁盘上传播的误差。我们在具有挑战性的数据集上训练和测试了我们的实例分割方法,这些数据集显示了具有各种道路使用者的密集城市环境。

DINOv2 based Self Supervised Learning For Few Shot Medical Image Segmentation
Authors Lev Ayzenberg, Raja Giryes, Hayit Greenspan
深度学习模型已成为医学图像分割的基石,但其功效取决于大量手动标记数据集的可用性,并且它们对不可预见类别的适应性仍然是一个挑战。很少有镜头分割 FSS 赋予模型从有限的标记示例中学习新类别的能力,从而提供了一种有前景的解决方案。 FSS 的一种领先方法是 ALPNet,它比较查询图像和少数可用的支持分割图像之间的特征。使用 ALPNet 的一个关键问题是如何设计其特征。在这项工作中,我们深入研究了使用 DINOv2 特征的潜力,DINOv2 是计算机视觉中的基础自监督学习模型。

3D Diffusion Policy
Authors Yanjie Ze, Gu Zhang, Kangning Zhang, Chenyuan Hu, Muhan Wang, Huazhe Xu
模仿学习提供了一种教授机器人灵巧技能的有效方法,然而,稳健且普遍地学习复杂技能通常需要大量的人类演示。为了解决这个具有挑战性的问题,我们提出了 3D 扩散策略 DP3,这是一种新颖的视觉模仿学习方法,它将 3D 视觉表示的力量融入扩散策略(一类条件动作生成模型)中。 DP3 的核心设计是利用紧凑的 3D 视觉表示,通过高效的点编码器从稀疏点云中提取。在我们涉及 72 个模拟任务的实验中,DP3 仅通过 10 次演示就成功处理了大多数任务,并以 55.3 的相对改进超越了基线。在 4 个真实的机器人任务中,DP3 展示了精确的控制,每个任务仅进行 40 次演示,成功率高达 85,并且在空间、视点、外观和实例等多个方面表现出出色的泛化能力。有趣的是,在真实的机器人实验中,DP3 很少违反安全要求,而基线方法经常这样做,需要人工干预。我们的广泛评估强调了 3D 表示在现实世界机器人学习中的至关重要性。

Joint multi-task learning improves weakly-supervised biomarker prediction in computational pathology
Authors Omar S. M. El Nahhas, Georg W lflein, Marta Ligero, Tim Lenz, Marko van Treeck, Firas Khader, Daniel Truhn, Jakob Nikolas Kather
深度学习 DL 可以在弱监督环境下直接从数字化癌症组织学中预测生物标志物。最近,通过基于深度学习的回归来预测连续生物标志物引起了越来越多的关注。尽管如此,临床决策通常需要明确的结果。因此,我们开发了一种弱监督的联合多任务 Transformer 架构,该架构已在四个公共患者队列上进行了训练和评估,用于预测两个关键的预测生物标志物:微卫星不稳定性 MSI 和同源重组缺陷 HRD,并使用与肿瘤相关的辅助回归任务进行训练微环境。此外,我们对计算病理学中弱监督联合多任务学习的 16 种任务平衡方法进行了综合基准测试。

Hierarchical Diffusion Policy for Kinematics-Aware Multi-Task Robotic Manipulation
Authors Xiao Ma, Sumit Patidar, Iain Haughton, Stephen James
本文介绍了分层扩散策略 HDP,这是一种用于多任务机器人操作的分层代理。 HDP 将操纵策略分解为层次结构:预测远处下一个最佳末端效应器姿势 NBP 的高级任务规划代理,以及生成最佳运动轨迹的低级目标条件扩散策略。分解的策略表示使 HDP 能够处理长期任务规划,同时生成细粒度的低级别行动。为了在满足机器人运动学约束的同时生成上下文感知运动轨迹,我们提出了一种新颖的运动学感知目标条件控制代理,机器人运动学扩散器 RK 扩散器。具体来说,RK Diffuser 学习生成末端执行器姿势和关节位置轨迹,并通过可微运动学将精确但运动学未知的末端执行器姿势扩散器提炼为运动学感知但不太准确的关节位置扩散器。

MedMamba: Vision Mamba for Medical Image Classification
Authors Yubiao Yue, Zhenzhang Li
医学图像分类是计算机视觉领域中非常基础和关键的任务。近年来,基于 CNN 和 Transformer 的模型被广泛用于对各种医学图像进行分类。不幸的是,CNN 在远程建模能力方面的局限性使其无法有效地提取医学图像中的细粒度特征,而 Transformer 则因其二次计算复杂性而受到阻碍。最近的研究表明,以 Mamba 为代表的状态空间模型 SSM 可以有效地模拟长程交互,同时保持线性计算复杂度。受此启发,我们提出用于医学图像分类的 Vision Mamba MedMamba 。更具体地说,我们引入了一种新颖的 Conv SSM 模块,它将卷积层的局部特征提取能力与 SSM 捕获长范围依赖性的能力结合起来。为了展示 MedMamba 的潜力,我们使用三个具有不同成像技术的公开医学数据集(即 Kvasir 内窥镜图像、FETAL PLANES DB 超声图像和 Covid19 肺炎正常胸部 X 射线 X 射线图像)以及我们自己构建的两个私人数据集进行了广泛的实验。实验结果表明,所提出的 MedMamba 在检测各种医学图像中的病变方面表现良好。据我们所知,这是首款专为医学图像分类量身定制的 Vision Mamba。这项工作的目的是为医学图像分类任务建立一个新的基线,并为未来开发更高效、更有效的基于SSM的医疗人工智能算法和应用系统提供有价值的见解。

A Precision Drone Landing System using Visual and IR Fiducial Markers and a Multi-Payload Camera
Authors Joshua Springer, Gylfi r Gu mundsson, Marcel Kyas
我们提出了一种使用基准标记和带有广角、变焦和红外传感器的万向架安装的多有效载荷相机进行自主精确无人机着陆的方法。该方法的数据要求极低,主要取决于从无人机到着陆场的方向,使其能够在相机的不同传感器和变焦系数之间动态切换,并最大限度地减少辅助传感器的要求。它消除了对诸如地面高度、到着陆场的直线距离、基准标记尺寸以及方向有问题的 6 DoF 标记姿势等数据的需求。我们利用变焦和广角相机以及视觉 April Tag 基准标记,在比之前的工作(168m 水平距离、102m 高度)更长的距离上成功进行精确着陆。我们使用红外光谱中主动和被动两种类型的 April 标签来实现白天和夜间的精确着陆,而不是大多数先前工作中使用的简单红外信标。主动红外着陆平台在环境温度下加热,而被动红外着陆平台则不通电,依赖于其高反射率以及地面和天空之间的红外差异。最后,我们提出了一种高级控制策略来管理着陆场的初始搜索和后续搜索(如果在之前的工作中未解决)丢失的情况。该方法演示了着陆橇至少接触着陆垫的成功着陆,实现了 0.19m 的平均误差。

SUPClust: Active Learning at the Boundaries
Authors Yuta Ono, Till Aczel, Benjamin Estermann, Roger Wattenhofer
主动学习是一种机器学习范例,旨在在获取标记数据成本昂贵的环境中优化模型性能。在这项工作中,我们提出了一种名为 SUPClust 的新型主动学习方法,旨在识别类之间决策边界上的点。通过针对这些点,SUPClust 旨在收集信息最丰富的信息,以改进模型对复杂决策区域的预测。我们通过实验证明,标记这些点可以带来强大的模型性能。

Bridging Diversity and Uncertainty in Active learning with Self-Supervised Pre-Training
Authors Paul Doucet, Benjamin Estermann, Till Aczel, Roger Wattenhofer
这项研究解决了主动学习中基于多样性和基于不确定性的采样策略的整合,特别是在自我监督的预训练模型的背景下。我们引入了一种称为 TCM 的简单启发式方法,它可以缓解冷启动问题,同时在各个数据级别上保持强大的性能。通过最初应用 TypiClust 进行多样性采样,然后过渡到使用 Margin 的不确定性采样,我们的方法有效地结合了两种策略的优势。

3D Object Visibility Prediction in Autonomous Driving
Authors Chuanyu Luo, Nuo Cheng, Ren Zhong, Haipeng Jiang, Wenyu Chen, Aoli Wang, Pu Li
随着硬件和软件技术的快速进步,自动驾驶的研究取得了长足的发展。多传感器自动驾驶的主流框架包括传感器安装、感知、路径规划、决策和运动控制。在感知阶段,一种常见的方法是利用神经网络从原始传感器数据推断 3D 边界框 Bbox 属性,包括分类、大小和方向。在本文中,我们提出了一种新颖的属性及其相应的算法:3D 对象可见性。通过结合多任务学习,可见性这一属性的引入对模型的有效性和效率的影响可以忽略不计。

Generative Active Learning with Variational Autoencoder for Radiology Data Generation in Veterinary Medicine
Authors In Gyu Lee, Jun Young Oh, Hee Jung Yu, Jae Hwan Kim, Ki Dong Eom, Ji Hoon Jeong
近年来,随着人们对宠物医疗保健的兴趣日益浓厚,兽医医学中对计算机辅助诊断 CAD 系统的需求也随之增加。由于缺乏足够的放射学数据,兽医 CAD 的发展陷入停滞。为了克服这一挑战,我们提出了一种基于变分自动编码器的生成主动学习框架。该方法旨在缓解兽医 CAD 系统可靠数据的匮乏问题。本研究利用包含心脏肥大放射线照片数据的数据集。在删除注释和标准化图像之后,我们采用了数据增强框架,其中包括数据生成阶段和用于过滤生成数据的查询阶段。实验结果表明,随着通过该框架生成的数据被添加到生成模型的训练数据中,射线照片上的frechet起始距离持续从84.14减小到50.75。随后,当生成的数据纳入分类模型的训练时,射线照片上混淆矩阵的误报率也从 0.16 提高到 0.66。

On Transfer in Classification: How Well do Subsets of Classes Generalize?
Authors Raphael Baena, Lucas Drumetz, Vincent Gripon
在分类中,通常会观察到在给定的一组类上训练的模型可以泛化到以前未见过的类,这表明学习能力超出了初始任务。这种能力通常在迁移学习的背景下得到利用,其中预训练的模型可用于处理新类,无论是否进行微调。令人惊讶的是,有几篇论文探讨了这一现象之外的理论根源。在这项工作中,我们有兴趣为类集之间的可迁移性奠定这样的理论框架的基础。也就是说,我们建立了类子集的部分有序集。该工具允许表示哪些类子集可以推广到其他类。在更实际的环境中,我们探索框架在对所有类进行测试时预测哪些类子集可以带来最佳性能的能力。我们还探索了一些镜头学习,其中转移是黄金标准。

Low-Dose CT Image Reconstruction by Fine-Tuning a UNet Pretrained for Gaussian Denoising for the Downstream Task of Image Enhancement
Authors Tim Selig, Thomas M rz, Martin Storath, Andreas Weinmann
计算机断层扫描 CT 是一种广泛使用的医学成像方式,由于它基于电离辐射,因此需要尽量减少辐射剂量。然而,辐射剂量的降低伴随着图像质量的降低,低剂量CT LDCT数据的重建仍然是一项具有挑战性的任务,有待研究。根据 LoDoPaB CT 基准(LDCT 重建基准),许多最先进的方法使用涉及 UNet 类型架构的管道。具体来说,排名最高的方法 ItNet 采用三阶段过程,涉及过滤反投影 FBP、在 CT 数据上训练的 UNet 以及迭代细化步骤。在本文中,我们提出了一种不太复杂的两阶段方法。第一阶段也采用了FBP,而新颖之处在于第二阶段的训练策略,其特点是CT图像增强阶段。我们方法的关键点是,神经网络是在与非 CT 数据截然不同的预训练任务上进行预训练的,即对各种自然灰度图像进行高斯噪声去除。然后,我们使用成对的 LDCT 图像和相应的正常剂量 CT 图像 NDCT 对该网络进行微调,以实现 CT 图像增强的下游任务。尽管比现有技术要简单得多,但由于预训练不依赖于特定领域的 CT 数据,并且不需要进一步的迭代细化步骤,因此所提出的两阶段方法取得了有竞争力的结果。

Gadolinium dose reduction for brain MRI using conditional deep learning
Authors Thomas Pinetz, Erich Kobler, Robert Haase, Julian A. Luetkens, Mathias Meetschen, Johannes Haubold, Cornelius Deuschl, Alexander Radbruch, Katerina Deike, Alexander Effland
最近,人们提出了基于深度学习的方法,用于计算减少基于钆的造影剂 GBCA,以减轻不良副作用,同时保留诊断价值。目前,这些方法面临的两个主要挑战是对比度增强的准确预测和真实图像的合成。在这项工作中,我们通过利用在对比前和对比后图像对的减法图像中编码的对比信号来解决这两个挑战。为了避免合成任何噪声或伪影,并仅专注于低剂量减影图像的对比度信号提取和增强,我们使用无噪声标准剂量减影图像作为目标来训练我们的深度学习模型。因此,我们的模型仅预测对比度增强信号,从而能够合成超出标准剂量的图像。此外,我们采用了最近基于扩散的模型的嵌入思想,以影响对比度增强行为的物理参数来调节我们的模型。

Fast, nonlocal and neural: a lightweight high quality solution to image denoising
Authors Yu Guo, Axel Davy, Gabriele Facciolo, Jean Michel Morel, Qiyu Jin
随着卷积神经网络 CNN 的广泛应用,基于传统模型的去噪算法现在已经被超越。然而,CNN 面临两个问题。首先,它们对计算的要求很高,这使得它们的部署对于移动终端来说尤其困难。其次,实验证据表明,与传统的非局部模型相比,CNN 通常会过度平滑图像中存在的规则纹理。在这封信中,我们提出了通过将非局部算法与轻量级残差 CNN 相结合来解决这两个问题的方案。该解决方案充分发挥了两种模型的优势。我们将该框架应用于经典非局部算法 NLM 和 BM3D 的两种 GPU 实现,并观察到在这两种情况下都有显着的增益,在低计算要求的情况下,其性能优于现有技术。我们的解决方案比具有同等性能的 CNN 快 10 到 20 倍,并获得更高的 PSNR。

Inverse-Free Fast Natural Gradient Descent Method for Deep Learning
Authors Xinwei Ou, Ce Zhu, Xiaolin Huang, Yipeng Liu
通过结合二阶导数或统计量,二阶方法可以比一阶方法更快地收敛,但由于计算效率低下,它们在深度学习中远不那么普遍。为了解决这个问题,许多现有的解决方案都集中于减小要求逆的矩阵的大小。然而,仍然需要在每次迭代中执行逆算子。在本文中,我们提出了一种快速自然梯度下降 FNGD 方法,该方法只需要在第一个 epoch 期间计算逆函数。首先,我们使用 Sherman Morrison Woodbury 公式将自然梯度下降 NGD 中的梯度预处理公式重新表述为每个样本梯度的加权和。

Boosting Meta-Training with Base Class Information for Few-Shot Learning
Authors Weihao Jiang, Guodong Liu, Di He, Kun He
很少的镜头学习是机器学习中的一项具有挑战性的任务,旨在学习一个能够识别新的、未见过的带有有限标记示例的类的分类器。元学习已经成为少数镜头学习的一个重要框架。它的训练框架原本是一种任务级的学习方法,比如Model Agnostic Meta Learning MAML和Prototropic Networks。最近提出的称为元基线的训练范例,由顺序预训练和元训练阶段组成,获得了最先进的性能。然而,作为一种非端到端的训练方法,元训练阶段只能在预训练完成后才能开始,由于两个训练阶段的固有冲突,元基线面临着较高的训练成本和次优性能。为了解决这些限制,我们提出了一种由两个替代循环组成的端到端训练范例。在外循环中,我们计算整个训练集的交叉熵损失,同时仅更新最终的线性层。在内循环中,我们采用原始的元学习训练模式来计算损失,并结合外损失的梯度来指导参数更新。这种训练范式不仅收敛速度快,而且优于现有基线,这表明来自整体训练集的信息和元学习训练范式可以相互加强。

Interactive Continual Learning Architecture for Long-Term Personalization of Home Service Robots
Authors Ali Ayub, Chrystopher Nehaniv, Kerstin Dautenhahn
为了让机器人在非结构化家庭环境中执行辅助任务,它们必须学习环境的语义知识并进行推理。尽管语义推理架构的发展重新兴起,但这些方法假设所有训练数据都是先验可用的。然而,每个用户的环境都是独特的,并且会随着时间的推移而不断变化,这使得这些方法不适合个性化家庭服务机器人。尽管持续学习的研究开发了可以随着时间的推移学习和适应的方法,但大多数这些方法都是在静态图像数据集上的对象分类的狭隘背景下进行测试的。在本文中,我们结合持续学习、语义推理和交互式机器学习文献的思想,开发了一种新颖的交互式持续学习架构,用于通过人机交互在家庭环境中持续学习语义知识。该架构建立在学习和记忆的核心认知原理之上,可以高效、实时地学习人类的新知识。我们将我们的架构与物理移动机械手机器人集成,并在实验室环境中进行了两个多月的广泛系统评估。

Kernel Correlation-Dissimilarity for Multiple Kernel k-Means Clustering
Authors Rina Su, Yu Guo, Caiying Wu, Qiyu Jin, Tieyong Zeng
多核k均值MKKM算法的主要目标是提取非线性信息并通过优化基核矩阵实现最优聚类。当前的方法通过基于相关性或相异性利用多个内核之间的相互依赖性来增强信息多样性并减少冗余。然而,仅依靠单一指标(例如相关性或相异性)来定义核心关系会引入偏差和不完整的表征。因此,这种限制阻碍了有效的信息提取,最终损害了聚类性能。为了应对这一挑战,我们引入了一种新方法,系统地集成了核相关性和相异性。我们的方法全面捕获内核关系,促进更有效的分类信息提取并提高聚类性能。通过强调核相关性和相异性之间的一致性,我们的方法提供了一种更加客观和透明的策略来提取非线性信息并显着提高聚类精度,并得到理论基础的支持。

Advancing Out-of-Distribution Detection through Data Purification and Dynamic Activation Function Design
Authors Yingrui Ji, Yao Zhu, Zhigang Li, Jiansheng Chen, Yunlong Kong, Jingbo Chen
在机器学习和深度学习的动态领域,模型的稳健性和可靠性至关重要,尤其是在关键的现实应用中。该领域的一个基本挑战是管理分布外的 OOD 样本,这会显着增加模型错误分类和不确定性的风险。我们的工作通过增强神经网络中 OOD 样本的检测和管理来应对这一挑战。我们推出了 OOD R Out of Distribution Rectified,这是一个精心策划的开源数据集集合,具有增强的降噪特性。在现有 OOD 数据集中的分布 ID 噪声可能会导致检测算法的评估不准确。认识到这一点,OOD R 结合了噪声过滤技术来细化数据集,确保对 OOD 检测算法进行更准确、更可靠的评估。这种方法不仅提高了数据的整体质量,还有助于更好地区分 OOD 和 ID 样本,从而使模型准确度提高 2.5 倍,误报率至少降低 3.2 倍。此外,我们还提出了 ActFun,这是一种创新方法,可以微调模型对不同输入的响应,从而提高特征提取的稳定性并最大限度地减少特异性问题。 ActFun 通过策略性地减少隐藏单元的影响,解决了 OOD 检测中模型过度自信的常见问题,从而增强了模型更准确地估计 OOD 不确定性的能力。在 OOD R 数据集中实现 ActFun 带来了显着的性能增强,包括 GradNorm 方法的 AUROC 提高了 18.42,Energy 方法的 FPR95 降低了 16.93。

Multi-modal Deep Learning
Authors Chen Yuhua
本文研究了单模态临床数据分析的深度学习方法,作为多模态医学研究的重要先驱。该研究以郭景源的工作为基础,通过紧凑型卷积变压器 CCT、Patch Up 和创新的 CamCenterLoss 技术完善了临床数据处理,为未来的多模态研究奠定了基础。与郭景源的 ResNet 和 StageNet 方法相比,所提出的方法证明了预测准确性和对危重患者的警惕性有所提高。新颖之处在于使用图像预训练的视觉 Transformer 主干执行迁移学习时间序列临床数据。该研究强调了 CCT、Patch Up 和新颖的 CamCenterLoss 在深度学习框架内处理单模态临床数据的潜力,为未来的多模态医学研究铺平了道路

A consensus-constrained parsimonious Gaussian mixture model for clustering hyperspectral images
Authors Ganesh Babu, Aoife Gowen, Michael Fop, Isobel Claire Gormley
由于光谱仪器性能的提高和成本的降低,使用高光谱成像来研究食品样品的情况不断增长。食品工程师通常使用分类方法,使用高光谱图像对食品样品的类型和质量进行分类。为了训练这些方法,每个训练图像中的每个像素都需要被标记。通常,使用计算成本低的基于阈值的方法来标记像素,并基于这些标签来训练分类方法。然而,基于阈值的方法是主观的,不能概括在不同条件和不同食物下拍摄的高光谱图像。这里提出了一种共识约束简约高斯混合模型 ccPGMM,使用基于模型的聚类方法来标记高光谱图像中的像素。在对图像中的其余像素进行聚类时,ccPGMM 利用有关少量像素标签的可用信息以及这些像素与相邻像素之间的关系作为约束。潜在变量模型用于根据少量潜在潜在因素来表示高维数据。为了确保计算可行性,采用共识聚类方法,将数据分为多个随机选择的变量子集,并对每个数据子集应用约束聚类,然后将聚类结果在所有数据子集中进行合并,以提供共识聚类解决方案。 ccPGMM 方法应用于三种膨化谷物、玉米、大米和小麦的模拟数据集和真实高光谱图像。

AnatoMix: Anatomy-aware Data Augmentation for Multi-organ Segmentation
Authors Chang Liu, Fuxin Fan, Annette Schwarz, Andreas Maier
医学图像中的多器官分割是一项广泛研究的任务,可以节省临床医生在日常工作中的大量手动工作。使用深度学习 DL 自动化器官分割过程是一种很有前景的解决方案,最先进的分割模型正在实现令人鼓舞的准确性。在这项工作中,我们提出了一种新颖的数据增强策略,用于提高多器官分割数据集的通用性,即 AnatoMix。通过对象级匹配和操作,我们的方法能够生成具有正确解剖结构的新图像,即器官分割掩模,从而以指数方式增加分割数据集的大小。已经进行了初步实验来研究我们的方法对公共 CT 数据集的分割性能的影响。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

;