Bootstrap

人体姿态估计MMPose

人体姿态估计MMPose

今天的课程还是理论课,主要介绍MMPose,人体姿态估计,对于小白来说理解这一部分还是相对困难的,整体听下课程来,很多地方都没有理解,涉及到的很多内容没有听过,会有些吃力,简单提取了一些相关的内容,记录下来之后再看看,明天实战一下应该会理解更深刻。

概述

给出一个特定的图像,例如人脸、手部、身体等,识别出其关键点,可以用坐标的方式表现出来,这是二维层面的,当然也可以三位层面。例如一段滑冰视频、跳操视频、踢球时、拥抱时,预测人体关键点在三维空间中的坐标,在三维空间中还原人的姿态。当然动物的姿态也可以。

2D姿态估计

即给出一张图片,定位关键点坐标。这里有一些方法,主要介绍到四种方法,即自顶向下方法,自底向上方法,单阶段方法,基于Transformer的方法。

  • 自顶向下方法
    即使用目标检测算法检测出单个人体,基于单个人体估计姿态,速度和计算量正比于人数。
    这里有介绍到基于回归和基于热力图。
    • 基于回归
      DeepPose——深度网络+线性回归
      RLE——使用标准化流估计关键点位置的概率分布
    • 基于热力图
      CPM——关键点-热力图转换
      Hourglass——结合不同尺度的信息进行预测
      Simple Baseline——简单好用的模型
      HRNet——特征图高分辨率+空间信息+多尺度融合
  • 自底向上方法
    那么当两个人拥抱或者有重合部分怎么办呢?自底向上方法解决了这个问题。即使用关键点检测出所有人体关键点,基于位置关系或其他辅助信息将关键点组合成不同的人。优点是推理速度与人数无关。
    • PAF-OpenPose
      预测骨骼位置作为关键点亲和度的衡量
  • 单阶段方法
    SPM首次提出了人体姿态估计的单阶段解决方案,在取得速度优势的同时,也取得了不逊色于二阶段方法的检测率,并且该方法可以直接从2D图像扩展到3D图像的人体姿态估计。
    • SPM
      层次型结构化姿态表示
  • 基于Transformer的方法
    在DETR中query通过注意力机制逐渐聚焦到特定物体上。
    姿态估计可模仿DETR,让query逐渐聚焦到特定人体关键点上。
    • PRTR / TokenPose
      基于对DETR对关键点的query

3D人体姿态估计

通过给定的图像预测人体关键点在三维空间中的坐标,在三维空间中还原人体的姿态。三维空间坐标是相对的。
还有一个有趣的发现:直接用2D坐标预测3D坐标就可以取得比较好的效果,不需要借助图像。

  • 直接预测
    • Coarse-to-Fine
    • Simple Baseline 3D
  • 利用视频信息
    • VideoPose3D
      基于单帧图像预测2D关键点,再基于多帧2D关键点结果预测3D关键点位置。
  • 利用多角度图像
    • VoxelPose

评估指标

  • PCP以肢体检出率作为评价指标
    PCP= 整个数据集中正确检出的此部位数 整个数据集中此部位总数 \frac {整个数据集中正确检出的此部位数}{整个数据集中此部位总数} 整个数据集中此部位总数整个数据集中正确检出的此部位数
  • PDJ以关节点的位置精度作为评价指标
  • PCK以关键点的检测精度作为评价指标
  • OKS based mAP以关键点相似度(OKS)作为评价指标计算mAP。

DensePose

将人体表面分为24个部分,并将每个部分参数化至同样大小的UV平面。
基本结构:
Mask-RCNN+DenseReg=DensePose-RCNN

人体参数化模型

  • SMPL
  • SMPLify
  • HMR

以上就是今天的大概内容咯,明天是实战课了,自己动手会更加帮助我理解内容,加油!

;