人体姿态估计的定义
从给定的图像中识别人脸、手部、身体等关键点。
输入:图像I
输出:所有关键点的像素坐标(x1, y1), (x2, y3)…(xJ, yJ),这里J为关键点的总数,取决于具体的关键点模型。常用的J有:人脸68,人体18,手势21。
下游任务
行为识别、CG、动画、人机交互、动物行为分析等。
2D姿态估计
定义:在图像上定位人体关键点(通常为人体主要关节)的坐标。
基本思路:
- 基于回归:将关键点检测问题建模成一个回归问题,让模型直接回归关键点的坐标。
- 优点:不需要维持高分辨率的特征图,计算消耗小;理论上可以达到无限精度,热力图方法的精度受限于特征图的空间分辨率。
- 缺点:图像到关键点坐标的映射高度非线性,直接回归坐标有些困难,精度不是最优。
- 基于热力图:并不直接回归关键点的坐标,而是预测关键点位于每个位置的概率。
- 优点:相比回归法相对容易,模型精度相对较高,因此主流算法更多基于热力图
- 缺点:计算消耗大于直接回归
多人姿态估计的方法有:
- 自顶向下(Top Down)方法:第一步,使用目标检测算法检测出每个人体。第二步,基于单人图像估计每个人的姿态。缺点:整体精度受限于检测器的精度;速度和计算量正比于人数。
- 自底向上(Bottom Up)方法:第一步,使用关键点模型检测所有的关键点。第二步,基于位置关系或其他辅助信息将关键点组合成不同的人。优点:推理速度与人数无关。
- 单阶段方法:一步实现人体的检测和姿态估计。
- 基于Transformer的方法