定义:从给定的图像中识别人脸、手部、身体等关键点
在三维空间中还原人体状态,
从图像中恢复人体3D模型、
基于人体姿态进行动作识别、
下游任务:CG、动画、人机交互(手势识别)、动物行为分析
2D姿态估计
在图像上定位人体关键点的坐标
->可以建模成一个回归问题,让模型直接回归关键点坐标
问题:深度模型直接回归坐标有困难,精度不是最优的
->不直接回归关键点坐标,而是预测关键点位于每个位置的概率
$$
Hj(xj,yj)=1
$$
H称为热力图,尺寸与原图 I 相同或者按比例缩小
热力图可以给予原始关键点坐标生产,作为训练网络的监督信息
网络预测的热力图也可以通过求极大值等方法得到关键点的坐标
why:模型预测热力图比直接回归坐标相对容易,模型精度相对更高,但是计算消耗大于直接回归
问题:如何从第j个关键点的热力图中还原出关键点的位置?
优点:可以微分,连续,没有量化误差
自顶向下方法
基于回归的自定向下方法
step1:使用目标检测算法检测出每个人体
step2:基于单人图像估计每个人的姿态