今日CS.CV 计算机视觉论文速览
新版本 Fri, 22 Mar 2019
Totally 30 papers
Daily Computer Vision Papers
Progressive Sparse Local Attention for Video object detection Authors Chaoxu Guo, Bin Fan, Jie Gu, Qian Zhang, Shiming Xiang, Veronique Prinet, Chunhong Pan 将基于图像的对象检测器传送到视频域仍然是一个具有挑战性的问题以前的努力主要是利用光流来跨帧传播特征,旨在实现性能和计算复杂性之间的良好折衷。然而,引入额外的模型来估计光流将显着增加整体模型尺寸。光流和高级特征之间的差距可能妨碍它准确地建立空间对应。本文提出了一种称为渐进稀疏局部注意PSLA的新模块,它建立了局部区域中具有渐进稀疏步幅的帧之间的空间对应关系,并利用该对应关系来传播特征,而不是依赖于光流。基于PSLA,引入递归特征更新RFU和密集特征变换DFT来模拟时间外观并分别丰富特征表示。最后,提出了一种新的视频对象检测框架。在ImageNet VID上进行了实验。我们的框架通过显着降低的模型容量实现了最先进的速度精度折衷。 |
PProCRC: Probabilistic Collaboration of Image Patches Authors Tapabrata Chakraborti, Brendan McCane, Steven mills, Umapada Pal 我们提出了一个条件概率框架,用于协作表示图像补丁。它在企业背景补偿和异常补丁抑制到主要配方本身,因此无需预处理步骤来处理相同。导出了成本函数的封闭形式非迭代解。所提出的方法PProCRC优于早期相关的基于补丁的PCRC,GP CRC以及最先进的概率ProCRC和EProCRC模型,用于人脸识别AR和LFW以及物种识别牛津花和宠物任务的几个细粒度基准图像数据集。我们还扩展我们最近流行的印度鸟类IndBirds数据集和报告结果。演示代码和IntBirds数据集可通过主要作者获得。 |
Closed-Form Optimal Triangulation Based on Angular Errors Authors Seong Hun Lee, Javier Civera 在本文中,我们研究了具有已知内部校准和姿态的两种视图三角测量的闭合形式最优解。通过将三角测量问题公式化为L 1和L最小化角重投影误差,我们推导出精确的闭合形式解,它保证了各自成本函数下的全局最优性。据我们所知,我们是第一个提出此类解决方案的人。由于角度误差是旋转不变的,我们的解决方案可以应用于任何类型的中央相机,无论是透视,鱼眼还是全方位。我们的方法还需要比现有优化方法少得多的计算。合成和真实数据集的实验结果验证了我们的理论推导。 |
Levelling the Playing Field: A Comprehensive Comparison of Visual Place Recognition Approaches under Changing Conditions Authors Mubariz Zaffar, Ahmad Khaliq, Shoaib Ehsan, Michael Milford, Klaus McDonald Maier 近年来,基于手工制作和学习视觉特征,时间过滤和语义场景信息使用的成功,视觉位置识别VPR方法的能力得到了显着提高。广泛的方法和相对近期对该领域的兴趣的增长意味着已经提出了广泛的数据集和评估方法,通常仅关注精确召回类型度量,使得比较困难。在本文中,我们提出了一种综合方法来评估最近开发的10种最新技术的VPR技术的性能,该技术利用三种标准化指标 - 匹配性能b匹配时间c内存占用。这一分析共同提供了当前VPR问题方法的各种优缺点的最新和广泛的概述。这项工作的目的是帮助这个特定的研究领域朝着更成熟和统一的方法解决问题,从而实现更好的比较,从而在未来的研究中取得更多进展。 |
Quotienting Impertinent Camera Kinematics for 3D Video Stabilization Authors Thomas W. Mitchel, Christian Wuelker, Jin Seob Kim, Sipu Ruan, Gregory S. Chirikjian 随着最近出现的允许实时计算的方法的出现,密集的3D流已成为快速相机运动估计的可行基础。最重要的是,密集流比现有3D稳定方法使用的稀疏特征匹配技术更强大,能够更好地处理大型相机位移和类似于消费者视频中常见的遮挡。在这里,我们介绍一个3D视频稳定框架,它依赖于密集的场景流。这种方法的基础是一种新颖的相机运动模型,允许直接从3D运动场恢复真实世界的相机姿势。此外,该模型可以扩展为描述视频中常见的某些类型的非刚性伪像,例如由缩放产生的那些。该框架产生了几种稳健的方案,这些方案产生了先前的全3D方法所实现的高质量稳定性,同时避免了基于特征的方法中通常存在的脆弱性。作为一个额外的好处,我们的框架快速运动模型的简单性和高效的流量计算相结合,以实现高帧速率的稳定。 |
An Efficient Solution to Non-Minimal Case Essential Matrix Estimation Authors Ji Zhao 找到两个校准视图之间的相对姿势是计算机视觉中的基本任务。给定所需点对应的最小数量5,经典五点方法可用于计算基本矩阵。对于给出N N 5个正确点对应的非极小情况,称为N点问题,方法相对较不成熟。在本文中,我们通过最小化代数误差来解决N点问题,并将其表示为二次约束的二次规划QCQP。该公式基于归一化基本矩阵流形的可行区域比先前方法更简单的参数化。然后通过半定松弛获得对该问题的全局最优解。这使我们能够在多项式时间内获得一个重要的非凸问题的可证明的全局解。我们提供从松弛问题中恢复最佳基本矩阵的条件。研究了半定沉积的理论保证,包括密封性和局部稳定性。实验表明,我们的方法总是发现并证明后验成本函数的全局最优,并且它比现有技术的全局最优解决方案快几十倍。 |
Megapixel Photon-Counting Color Imaging using Quanta Image Sensor Authors Abhiram Gnanasambandam, Omar Elgendy, Jiaju Ma, and Stanley H. Chan Quanta图像传感器QIS是一种单光子探测器,专为极低光成像条件而设计。大多数现有的QIS原型都是基于单光子雪崩二极管SPAD的单色。由于在保持可接受的像素内串扰的同时缩小像素尺寸和增加空间分辨率的固有困难,单光子探测器尚未证明彩色成像。在本文中,我们提出了第一种颜色QIS的图像重建,分辨率为1024×1024像素,支持单比特和多比特光子计数能力。我们的彩色图像重建是通过定制的联合去马赛克去噪算法实现的,利用截断的泊松统计和方差稳定变换。新传感器和算法的实验结果表明,在极低光照条件下具有出色的彩色成像性能,平均曝光量低至每像素几个光子。 |
Localization of Unmanned Aerial Vehicles in Corridor Environments using Deep Learning Authors Ram Prasad Padhy, Shahzad Ahmad, Sachin Verma, Pankaj Kumar Sa, Sambit Bakshi 在未知环境中基于视觉的无人驾驶飞行器无人机姿态估计是机器人视觉领域中快速发展的研究领域。当唯一可用的传感器是静态单摄像机单眼视觉时,任务变得更加复杂。在这方面,我们提出了一种单眼视觉辅助定位算法,它将帮助无人机在室内走廊环境中安全导航。总是,目标是通过将无人机保持在中心而无需向左或向右的方向,使无人机在前进方向上通过走廊。该算法利用从UAV前置摄像头捕获的RGB图像,并将其传递到训练有素的深度神经网络DNN,以预测无人机在走廊的左侧或中央或右侧的位置。根据UAV相对于走廊的中心平分线CBL的偏差,产生合适的命令以使UAV到达中心。当无人机位于走廊的中心时,新图像通过另一个训练有素的DNN来预测无人机相对于走廊CBL的方向。如果UAV向左或向右倾斜,则生成适当的命令以纠正方向。我们还提出了一个名为NITRCorrV1的新走廊数据集,其中包含当无人机位于各种走廊的所有可能位置时由无人机前置摄像头捕获的图像。在不同走廊中的一组详尽的实验揭示了所提出的算法的功效。 |
Short-Term Prediction and Multi-Camera Fusion on Semantic Grids Authors Lukas Hoyer, Patrick Kesper, Volker Fischer 环境表示ER是每个自治系统的重要部分。它引入了感知与其他系统组件之间的通用接口,例如决策制定,并允许下游算法在不知道所使用的传感器的情况下处理抽象数据。在这项工作中,我们提出并评估一种新颖的架构,该架构可以生成以自我为中心,基于网格,预测和语义可解释的ER。特别地,我们提供了多个相机序列的时空融合和这种ER中的短期预测的概念证明。我们的设计利用强大的语义分割网络以及深度和运动估计来首先从多个摄像机流中提取语义信息,然后将它们分别转换为以自我为中心的时间对齐的鸟瞰视图网格。深度编码器解码器网络被训练以将这些网格的堆栈融合成统一的语义网格表示并且预测其周围的动态。我们在Cityscapes数据集的真实世界序列上评估此表示,并显示我们的体系结构可以在复杂的传感器融合场景中进行准确的预测,并且在基于类别的评估中明显优于模型驱动的基线。 |
The CASE Dataset of Candidate Spaces for Advert Implantation Authors Soumyabrata Dev, Murhaf Hossari, Matthew Nicholson, Killian McCabe, Atul Nautiyal, Clare Conran, Jian Tang, Wei Xu, Fran ois Piti 随着更快的互联网服务和多媒体内容的增长,我们观察到在线视频数量的大幅增长。由于使用智能电话和其他手持视频捕获设备,用户以前所未有的速度生成这些视频内容。这为广告和营销机构创造了为用户创建个性化内容的巨大潜力。在本文中,我们尝试通过在视频帧中提出候选空间来帮助视频编辑生成增强视频内容。我们提出并发布了大型户外场景数据集,以及候选空间的手动注释地图。我们还在该提议的数据集上对基于深度学习的语义分割算法进行了基准测试。 |
Learning with Batch-wise Optimal Transport Loss for 3D Shape Recognition Authors Lin Xu, Han Sun, Yuai Liu 深度度量学习对于视觉识别至关重要。广泛使用的基于成对或三重的损失目标不能充分利用训练样本中的语义信息,或者在优化期间对那些硬样本给予足够的关注。因此,它们经常遭受较慢的收敛速度和较差的性能。在本文中,我们将展示如何通过批量样本的最佳传输编程来学习重要性驱动的距离度量。它可以自动强调硬性示例,并导致收敛的显着改善。我们提出了一种新的批量最优运输损失,并将其以端到端深度量度学习方式进行组合。我们用它来学习距离度量和深度特征表示以便识别。具有六个基准数据集(即MNIST,CIFAR10,SHREC13,SHREC14,ModelNet10和ModelNet40)的视觉检索和分类任务的经验结果证明了所提出方法的优越性。它可以显着加快收敛速度,同时实现最先进的识别性能。例如,在3D形状识别实验中,我们表明我们的方法可以在仅仅5个时期内获得比在200个时期之后通过主流3D形状识别方法获得的更好的识别性能。 |
Context-Constrained Accurate Contour Extraction for Occlusion Edge Detection Authors Rui Lu, Menghan Zhou, Anlong Ming, Yu Zhou 遮挡边缘检测需要轮廓的精确位置和上下文约束。现有的基于CNN的流水线不利用自适应方法来过滤由低级特征引入的噪声。为了解决这个难题,我们提出了一种新颖的Context约束精确轮廓提取网络CCENet。保留空间细节,并且分别通过两个提取块增强轮廓敏感上下文。然后,精心设计的融合模块可用于集成功能,这些功能在恢复细节和消除混乱方面起着补充作用。最终利用注意机制的重量响应来增强遮挡轮廓并抑制噪声。所提出的CCENet明显优于对象边缘检测和遮挡方向检测的PIOD和BSDS所有权数据集的最新方法。 |
Tensor-Ring Nuclear Norm Minimization and Application for Visual Data Completion Authors Jinshi Yu, Chao Li, Qibin Zhao, Guoxu Zhou 已经成功地使用张量环TR分解来获得视觉数据完成问题中的现有技术性能。然而,现有的基于TR的完成方法严重不凸并且计算要求很高。此外,确定最佳TR等级在实践中是一项艰巨的工作。为了克服这些缺点,我们首先通过使用张量圆展开来引入一类新的张量核规范。然后我们理论上建立循环展开矩阵的秩与TR等级之间的联系。我们还通过最小化所提出的张量核范数来开发有效的张量完成算法。大量的实验结果表明,我们提出的张量完成方法在条形缺失值的绘画问题中优于传统的张量完成方法。 |
Learning Disentangled Representations of Satellite Image Time Series Authors Eduardo Sanchez IRIT , Mathieu Serrurier IRIT , Mathias Ortner 在本文中,我们研究如何通过利用大量未标记的数据以无人监督的方式学习合适的卫星图像时间序列表示。另外,我们的目标是将时间序列的表示分解为两个表示,共享表示捕获时间序列的图像和包含时间序列的每个图像的特定信息的专用表示之间的公共信息。为了解决这些问题,我们提出了一种模型,该模型将称为跨域自动编码器的新组件与变分自动编码器VAE和生成性广告网络GAN方法相结合。为了学习时间序列的解开表示,我们的模型学习了多模态图像到图像翻译任务。我们使用Sentinel 2任务中的卫星图像时间序列训练我们的模型。进行了几个实验以评估所获得的表示。我们证明这些解开的表示对于执行多个任务非常有用,例如图像分类,图像检索,图像分割和变化检测。 |
Parametic Classification of Handvein Patterns Based on Texture Features Authors Harbi AlMahafzah, Mohammad Imranand, Supreetha Gowda H.D. 在本文中,我们开发了采用手工模态Handvein的生物识别系统,它具有每个人独特的模式,不可能伪造和制造,因为它是一个内部特征。我们选择了特征提取算法,如LBP视觉描述符,LPQ模糊不敏感纹理算子,Log Gabor纹理描述符。我们选择了众所周知的分类器,如KNN和SVM进行分类。我们对Handvein在不同距离度量和内核选项下的单一算法识别率进行了实验和制表。执行特征级融合,提高了性能水平。 |
Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation Authors Xipeng Chen, Kwan Yee Lin, Wentao Liu, Chen Qian, Liang Lin 最近的研究表明,在门3D数据集和复杂的网络架构的大规模帮助下,单眼图像的3D人体姿态估计取得了显着进步。然而,对不同环境的普遍性仍然是难以实现的目标。在这项工作中,我们通过在训练阶段使用简单的自动编码器模型中的多个视图并且仅将2D关键点信息用作监督来提出用于人体姿势的几何感知3D表示以解决该限制。提出了一种视图合成框架,用于通过从一个视点到另一个视点合成人体姿势来学习视点之间的共享3D表示。我们提出了一种基于骨架的编码器解码器机制,用于在潜在空间中仅提取姿势相关表示,而不是在原始图像级别中执行直接传输。进一步引入基于学习的表示一致性约束以促进潜在3D表示的鲁棒性。由于学习的表示对3D几何信息进行编码,因此将其映射到3D姿势将比使用图像或2D坐标作为3D姿势估计器的输入的传统框架容易得多。我们展示了我们对3D人体姿态估计任务的方法。对三个流行基准测试的综合实验表明,我们的模型可以通过简单地将表示作为强大的3D先验注入来显着提高现有技术方法的性能。 |
Towards Robust Curve Text Detection with Conditional Spatial Expansion Authors Zichuan Liu, Guosheng Lin, Sheng Yang, Fayao Liu, Weisi Lin, Wang Ling Goh 由于其不规则的形状和不同的尺寸,检测曲线文本是具有挑战性的。在本文中,我们首先研究现有曲线检测方法的不足,然后提出一种新的条件空间扩展CSE机制,以提高曲线文本检测的性能。我们不将曲线文本检测视为多边形回归或分割问题,而是将其视为区域扩展过程。我们的CSE以在文本区域内任意初始化的种子开始,并且基于CNN提取的局部特征和合并区域的上下文信息逐渐合并邻域区域。 CSE具有高度参数化,可以无缝集成到现有的对象检测框架中。通过数据相关的CSE机制增强,我们的曲线文本检测系统提供了强大的实例级文本区域提取,并且后处理最少。分析实验表明,我们的CSE可以处理各种形状,大小和方向的文本,并且可以有效地抑制来自同一RoI中包含的纹理或意外文本等文本的误报。与现有的曲线文本检测算法相比,我们的方法更加健壮,处理流程更简单。它还在曲线文本基准测试中创建了一种新的艺术表现,F分数高达78.4。 |
Non-target Structural Displacement Measurement Using Reference Frame Based Deepflow Authors Jongbin Won, Jong Woong Park, Do Soo Moon 结构性位移对于结构健康监测至关重要,尽管在现场条件下进行测量非常具有挑战性。大多数现有的位移测量方法成本高,劳动强度大,并且对于测量小的动态位移而言不够精确。计算机视觉基于CV的方法将光学设备与先进的图像处理算法相结合,以精确,经济高效地进行结构位移的远程测量,并且易于安然而,基于非目标的CV方法仍然受到特征点不足,特征点检测不正确,遮挡以及跟踪误差累积引起的漂移的限制。本文提出了一种基于参考帧的Deepflow算法,该算法集成了基于非目标位移测量的屏蔽和信号滤波。所提出的方法允许用户选择具有用于位移跟踪的低梯度的图像的感兴趣点,并且直接计算位移而没有由测量误差累积的漂移。所提出的方法在环境和闭塞测试条件下在悬臂梁上进行实验验证。将所提出方法的精度与参考激光位移传感器的精度进行比较以进行验证。所提出的方法的显着优点是其在不具有独特自然特征的结构上的任何区域中提取结构位移的灵活性。 |
Dual Residual Networks Leveraging the Potential of Paired Operations for Image Restoration Authors Xing Liu, Masanori Suganuma, Zhun Sun, Takayuki Okatani 在本文中,我们研究了深度神经网络的图像恢复任务设计。我们提出了一种称为双残余连接的新型残余连接,它利用了成对操作的潜力,例如上下采样或与大小粒度内核的卷积。我们设计了一个实现这种连接方式的模块化块,它配备了两个容器,可以插入任意配对操作。采用Veit等人提出的剩余网络的分解视图,我们指出所提出的模块化块的堆栈允许块中的第一操作与任何后续块中的第二操作交互。指定每个堆叠块中的两个操作,我们为每个单独的图像恢复任务构建一个完整的网络。我们使用九个数据集实验性地评估了五个图像恢复任务的建议方法。结果表明,在几乎所有任务和数据集中,具有适当选择的配对操作的所提出的网络优于先前的方法。 |
Prostate Segmentation from Ultrasound Images using Residual Fully Convolutional Network Authors M. S. Hossain, A. P. Paplinski, J. M. Betts 基于医学成像的前列腺癌诊断程序使用术中经直肠超声TRUS成像来可视化前列腺形状和位置以收集组织样本。从前列腺进行正确的组织取样需要TRUS图像中的准确前列腺分割。为实现这一目标,本研究使用了一种基于完全卷积网络的新型残余连接。这种分割技术的优点是它不需要预处理TRUS图像来执行分割。因此,它从TRUS图像提供更快速和直接的前列腺分割。结果表明,所提出的技术仅使用少量TRUS数据集即可实现约86个Dice相似度精度。 |
Networks for Joint Affine and Non-parametric Image Registration Authors Zhengyang Shen, Xu Han, Zhenlin Xu, Marc Niethammer 我们介绍了一个用于3D医学图像注册的端到端深度学习框架。与现有方法相比,我们的框架结合了两种配准方法:仿射配准和矢量动量参数化固定速度场vSVF模型。具体来说,它包括三个阶段。在第一阶段,多步仿射网络预测仿射变换参数。在第二阶段,我们使用类似Unet的网络来生成动量,从中可以通过平滑来计算速度场。最后,在第三阶段,我们使用基于自可迭代映射的vSVF组件,以基于变换图的当前估计提供非参数细化。一旦训练模型,就在一次前进中完成注册。为了评估性能,我们对Osteoarthritis Initiative OAI数据集的膝关节的3D磁共振图像MRI进行了纵向和交叉主题实验。结果表明,我们的框架实现了与现有医学图像配准方法相当的性能,但它更快,更好地控制了转换规律性,包括产生近似对称变换的能力,以及结合仿射和非参数配准。 |
Robust Image Segmentation Quality Assessment without Ground Truth Authors Leixin Zhou, Wenxiang Deng, Xiaodong Wu 基于深度学习的图像分割方法取得了巨大成功,甚至在某些应用中具有人类水平的准确性。但是,由于深度学习的黑盒性质,在某些情况下最好的方法可能会失败。因此,在没有基础事实的情况下预测分割质量将是非常关最近,人们提出训练神经网络以通过回归估计质量得分。虽然它可以实现有希望的预测精度,但是网络存在鲁棒性问题,例如,它容易受到对抗性攻击。在本文中,我们建议通过利用输入图像和重建图像之间的差异来缓解这个问题,该差异是从要评估的分割重建的。基于深度学习的重建网络REC Net利用由原始输入图像作为目标的地面实况分割掩蔽的输入图像来训练。其背后的基本原理是,经过训练的REC Net可以最好地重建通过精确分割掩盖的输入图像。然后用差异图像和相应的分割作为输入训练质量分数回归网络REG Net。以这种方式,回归网络可能具有较低的机会从原始输入图像过度拟合到不期望的图像特征,因此更稳健。 ACDC17数据集的结果表明我们的方法很有前途。 |
Affordance Learning In Direct Perception for Autonomous Driving Authors Chen Sun, Jean M. Uwabeza Vianney, Dongpu Cao 自动驾驶的最新发展涉及高水平的计算机视觉和详细的道路场景理解。如今,大多数自动驾驶汽车都采用中介感知方法进行路径规划和控制,高度依赖于高清3D地图和实时传感器。最近的研究工作旨在用粗糙的道路属性替代大规模的高清地图。在本文中,我们遵循基于直接感知的方法来训练深度神经网络,用于自主驾驶中的可供性学习。我们在这项工作中的目标是基于免费提供的Google街景全景图和开放街道地图道路矢量属性开发可供性学习模型。通过从车载摄像机拍摄的图像中学习可用性,可以实现对驾驶场景的理解。通过学习示能表示的这种场景理解对于确认诸如HD地图的基本地图可能是有用的,使得所需的数据存储空间被最小化并且可用于实时处理。我们通过实验评估比较了人类志愿者和我们模型之间道路属性识别的能力。我们的结果表明,这种方法可以作为一种更便宜的方式来训练自动驾驶中的数据收集。交叉验证结果也表明了我们模型的有效性。 |
LaserNet: An Efficient Probabilistic 3D Object Detector for Autonomous Driving Authors Gregory P. Meyer, Ankit Laddha, Eric Kee, Carlos Vallespi Gonzalez, Carl K. Wellington 在本文中,我们介绍了LaserNet,一种用于自动驾驶的LiDAR数据的3D对象检测的计算有效方法。效率来自在传感器的原生范围视图中处理LiDAR数据,其中输入数据自然紧凑。在范围视图中操作涉及众所周知的学习挑战,包括遮挡和尺度变化,但它还基于如何捕获传感器数据来提供上下文信息。我们的方法使用完全卷积网络来预测每个点的3D盒子上的多模态分布,然后它有效地融合这些分布以生成每个对象的预测。实验表明,将每个检测建模为分布而不是单个确定性框导致更好的整体检测性能。基准测试结果表明,这种方法的运行时间明显低于其他近期探测器,并且在具有足够数据的大型数据集上进行比较时,它可以实现最先进的性能,以克服范围视图上的训练挑战。 |
Im2Pencil: Controllable Pencil Illustration from Photographs Authors Yijun Li, Chen Fang, Aaron Hertzmann, Eli Shechtman, Ming Hsuan Yang 我们提出了一种高质量的照片到铅笔翻译方法,对绘图风格进行了细粒度的控制。由于多个笔划类型(例如,轮廓和阴影),铅笔阴影的结构复杂性(例如,阴影线)以及缺少对齐的训练数据对,这是一项具有挑战性的任务。为了应对这些挑战,我们开发了一个两个分支模型,用于学习单独的滤波器,用于从铅笔画集合中生成粗略轮廓和色调着色。我们通过使用图像过滤技术从原始铅笔图中提取干净的轮廓和色调插图来创建训练数据对,并且我们手动标记绘图样式。此外,我们的模型以用户可控的方式创建不同的铅笔样式,例如线条粗略和阴影样式。对不同类型的铅笔画的实验结果表明,所提出的算法在质量,多样性和用户评价方面对现有方法有利。 |
Face Detection in Repeated Settings Authors Mohammad Nayeem Teli, Bruce A. Draper, J. Ross Beveridge 人脸检测是面部验证和识别之前的重要的第一步。在无约束的环境中,由于姿势,光线,比例,背景和位置的变化,它仍然是一个开放的挑战。但是,出于验证目的,我们可以控制背景和位置。图像主要在诸如敏感建筑物入口,门前或背景不变的位置等地方捕获。我们提出了一种基于相关性的人脸检测算法来检测这种设置中的人脸,我们控制位置,并使照明,姿势和比例不受控制。在这些场景中,结果表明我们的算法训练简单快捷,优于Viola和Jones面部检测精度,测试速度更快。 |
Individualized Multilayer Tensor Learning with An Application in Imaging Analysis Authors Xiwei Tang, Xuan Bi, Annie Qu 这项工作受多模态乳腺癌成像数据的推动,这是非常具有挑战性的,因为离散肿瘤相关微泡TMV的信号随机分布有异质模式。这对于采用均匀特征结构的传统成像回归和降维模型提出了重大挑战。我们开发了一种创新的多层张量学习方法,通过利用主题成像特征和多模态信息,将异质性纳入更高阶张量分解并有效预测疾病状态。具体而言,我们构建了多层分解,其除了模态特定张量结构之外还利用个性化成像层。我们的方法的一个主要优点是我们能够有效地捕获不是由人口结构表征的信号的异构空间特征以及同时整合多模态信息。为了实现可扩展计算,我们开发了一种新的双层块改进算法。理论上,我们研究了算法收敛性,张量信号恢复误差界和预测模型估计的渐近一致性。我们还将所提出的方法应用于模拟和人乳腺癌成像数据。数值结果表明,该方法优于其他现有的竞争方法。 |
Classification of EEG-Based Brain Connectivity Networks in Schizophrenia Using a Multi-Domain Connectome Convolutional Neural Network Authors Chun Ren Phang, Chee Ming Ting, Fuad Noman, Hernando Ombao 我们利用脑功能连接中的改变模式作为神经精神病患者自动判别分析的特征。最近,fMRI已经将深度学习方法引入到功能网络分类中,并且所提出的架构主要集中在单一类型的连接性测量上。我们提出了一种深度卷积神经网络CNN框架,用于精神分裂症SZ中脑电图EEG衍生脑连接组的分类。为了捕获SZ中断连接的互补方面,我们探索了各种连接功能的组合,包括基于向量自回归模型和部分有向连贯的有效连接的时域和频域度量,以及网络拓扑的复杂网络度量。我们设计了一种基于1D和2D CNN的并行集合的新型多域连接组CNN MDC CNN,以使用不同的融合策略集成来自各种域和维度的特征。由EEG连接的多个卷积层学习的分层潜在表示揭示了SZ和健康对照HC之间的明显的组差异。大型静息状态EEG数据集的结果表明,所提出的CNN明显优于传统的支持向量机分类器。具有组合连接功能的MDC CNN使用单独的功能进一步提高了单域CNN的性能,通过决策级融合实现了93.06的卓越精度。通过整合来自不同脑连接描述符的信息,所提出的MDC CNN能够准确地区分SZ和HC。新框架可用于开发SZ和其他疾病的诊断工具。 |
Implicit Generation and Generalization in Energy-Based Models Authors Yilun Du, Igor Mordatch 基于能量的模型EBM由于其可能性建模的通用性和简单性而具有吸引力,但传统上难以训练。我们提出了在连续神经网络上扩展基于MCMC的EBM训练的技术,并展示了其在ImageNet32x32,ImageNet128x128,CIFAR 10和机器人手部轨迹的高维数据域上的成功,实现了比其他似然模型更好的样本并且与之相当当代GAN方法,同时涵盖了所有数据模式。我们强调隐式生成的独特功能,例如能量组合和腐败图像重建和完成。最后,我们展示了EBM概括良好并且能够实现分布式分类的现有技术,展示出对抗性强大的分类,连贯的长期预测轨迹滚动,以及生成模型的零射击组合。 |
Online continual learning with no task boundaries Authors Rahaf Aljundi, Min Lin, Baptiste Goujaud, Yoshua Bengio 持续学习是指代理人使用非静止且永无止境的数据流在线学习的能力。这种永无止境的学习过程的关键组成部分是克服先前看到的数据的灾难性遗忘,这是神经网络众所周知的问题。到目前为止开发的解决方案经常将持续学习的问题放宽到更容易的任务增量设置,其中数据流被划分为具有明确边界的任务。在本文中,我们打破限制并转向更具挑战性的在线设置,在此设置中我们不假设数据流中的任务信息。我们从这样的想法开始,即每个学习步骤不应该通过约束优化过程来增加先前学习的示例的损失。这意味着约束的数量随着示例的数量线性增长,这是一个严重的限制。我们开发了一种解决方案来选择固定数量的约束,我们使用这些约束来近似由原始约束定义的可行区域。我们将我们的方法与依赖任务边界的方法进行比较,以选择一组固定的示例,并显示可比较甚至更好的结果,尤其是当边界模糊或数据分布不平衡时。 |
Chinese Abs From Machine Translation |