人体姿态估计MMPose

今天的课程还是理论课，主要介绍MMPose，人体姿态估计，对于小白来说理解这一部分还是相对困难的，整体听下课程来，很多地方都没有理解，涉及到的很多内容没有听过，会有些吃力，简单提取了一些相关的内容，记录下来之后再看看，明天实战一下应该会理解更深刻。

给出一个特定的图像，例如人脸、手部、身体等，识别出其关键点，可以用坐标的方式表现出来，这是二维层面的，当然也可以三位层面。例如一段滑冰视频、跳操视频、踢球时、拥抱时，预测人体关键点在三维空间中的坐标，在三维空间中还原人的姿态。当然动物的姿态也可以。

即给出一张图片，定位关键点坐标。这里有一些方法，主要介绍到四种方法，即自顶向下方法，自底向上方法，单阶段方法，基于Transformer的方法。

自顶向下方法
即使用目标检测算法检测出单个人体，基于单个人体估计姿态，速度和计算量正比于人数。
这里有介绍到基于回归和基于热力图。
- 基于回归
  DeepPose——深度网络+线性回归
  RLE——使用标准化流估计关键点位置的概率分布
- 基于热力图
  CPM——关键点-热力图转换
  Hourglass——结合不同尺度的信息进行预测
  Simple Baseline——简单好用的模型
  HRNet——特征图高分辨率+空间信息+多尺度融合
自底向上方法
那么当两个人拥抱或者有重合部分怎么办呢？自底向上方法解决了这个问题。即使用关键点检测出所有人体关键点，基于位置关系或其他辅助信息将关键点组合成不同的人。优点是推理速度与人数无关。
- PAF-OpenPose
  预测骨骼位置作为关键点亲和度的衡量
单阶段方法
SPM首次提出了人体姿态估计的单阶段解决方案，在取得速度优势的同时，也取得了不逊色于二阶段方法的检测率，并且该方法可以直接从2D图像扩展到3D图像的人体姿态估计。
- SPM
  层次型结构化姿态表示
基于Transformer的方法
在DETR中query通过注意力机制逐渐聚焦到特定物体上。
姿态估计可模仿DETR，让query逐渐聚焦到特定人体关键点上。
- PRTR / TokenPose
  基于对DETR对关键点的query

通过给定的图像预测人体关键点在三维空间中的坐标，在三维空间中还原人体的姿态。三维空间坐标是相对的。
还有一个有趣的发现：直接用2D坐标预测3D坐标就可以取得比较好的效果，不需要借助图像。

将人体表面分为24个部分，并将每个部分参数化至同样大小的UV平面。
基本结构：
Mask-RCNN+DenseReg=DensePose-RCNN

以上就是今天的大概内容咯，明天是实战课了，自己动手会更加帮助我理解内容，加油！