图文 | 陈嘉毅
Embodied Perception and InteraCtion (EPIC)
论文地址:https://arxiv.org/abs/2110.11657
该工作代码已开源,欢迎大家关注~
项目主页:https://jychen18.github.io/RPMG/
代码地址:https://github.com/JYChen18/RPMG
三维旋转(朝向)估计旨在预测三维空间中三自由度的旋转。这一问题广泛存在于计算机视觉领域中的众多任务中,如物体/人体/手的位姿估计、相机重定位等。近年来,随着神经网络的兴起,人们开始尝试用神经网络来解决三维旋转的预测任务。其中,直接回归(regression)三维旋转具有速度快、端到端的优势,吸引了很多研究者的关注。
我们知道三维平移和三维旋转一同构成了六维位姿。然而与三维平移不同的是,三维旋转属于非欧几里得变量,其非欧的性质对神经网络直接进行回归带来了重大的挑战。具体来说,全部三维旋转构成了一个连续群 SO(3),这一连续群是一种三维黎曼流形(Riemannian manifold),而并非传统的欧几里得空间。我们知道神经网络的输出在线性激活的情况下是处在欧式空间
现有的工作主要围绕三维旋转的表示(representation)。我们知道三维旋转只有三个独立自由度,但是学界为其发展出了多种不同的表示方法,包括三维的欧拉角(Euler angle)表示、三维的轴角(axis-angle)表示、四维的四元数(quaternion)表示和九维的旋转矩阵表示。虽然旋转的欧拉角和轴角表示是最小表示且张成了一个欧式空间,但是已有的工作发现使用神经网络直接回归欧拉角和轴角表示的准确度偏低,因此长久以来四元数成为了比较主流的神经网络的预测表示。
2019年 Zhou et al. [1] 在 CVPR 的工作第一提出了一个理论框架,对不同旋转表示与神经网络的契合程度进行了分析并提出了一种六维的冗余表示。在此之后学者们相继提出了基于 SVD 正交化的九维旋转矩阵表示和十维表示。这些表示的一个共性问题是他们的维数
在本项工作中,我们第一次关注到了这样常常是多对一的流形映射在梯度回传中构成的特有问题,并针对这样一类从欧式空间到黎曼流形的映射设计了一个新的梯度反传层——针对流形的正则投影梯度层(regularized projective manifold gradient layer),来取代简单的基于链式法则的梯度回传,以促进网络的优化。我们的方法不仅能广泛适用于之前工作提出的各种非欧表示(四元数/六维/九维/十维),还能推广到其他的黎曼流形,如回归
图1. 方法完整流程图。
为了便于理解,我们用一个简单的例子,预测三维空间中的单位球面
我们发现这样的反向传播过程并不是最优的。我们注意到,由于
因此,我们首先采用流形上的优化技术——黎曼优化(Riemannian optimization)来得到一个在黎曼流形
我们进一步意识到,这个寻找最优的过程其实可以类比于多正确答案(multi-ground truth)的监督问题。He et al. [4] 在监督网络四元数的输出时曾遇到过这样一个问题:由于四元数
在实验中,我们发现由于
图2. 方法直观示意图(左);不加正则项时网络直接输出 x 的模长关于训练过程的变化趋势图(中);加正则项时网络直接输出 x 的模长关于训练过程的变化趋势图(右)。
虽然上面我们只介绍了
我们的主实验是基于三维点云的类别级物体位姿估计。我们用一个物体的三维点云作为输入,希望网络去预测输入的点云
图3. 基于 ModelNet [5] 三维点云的类别级物体位姿估计。Mn,Md,Acc 分别代表平均角度误差(Mean)、角度误差中位数(Median)、角度误差小于5°的百分比(5°Accuracy)。
下左图是对于飞机这个类的训练过程中平均角度误差的变化情况,可以看出我们的方法能收敛的更快更好。下右图是角度误差的分布情况,可以看出我们的方法在各个误差区间都能显著优于 baseline。
图4. 训练过程中训练集上平均角度误差的变化情况(左),训练完成后在测试集上角度误差的分布情况(右)。物体类别均为飞机。
此外,我们的方法在基于图片的类别级物体位姿估计的实验中(图5),也能有显著、一致的提升。实验的设置和第一个实验完全一致,唯一的区别是给网络的输入变成了一张包含特定类别物体的二维图片。
图5. 基于 ModelNet [5] 二维图片的类别级物体位姿估计。Mn,Md,Acc 分别代表平均角度误差(Mean)、角度误差中位数(Median)、角度误差小于5°的百分比(5°Accuracy)。
我们还利用对于瓶子这一类的三维点云位姿估计实验,在其他流形(
图6. 其他流形(
更多其他实验,如自监督的三维点云位姿估计、相机重定位的实验,请详见原论文。
参考文献:
[1] Zhou, Yi, et al. "On the continuity of rotation representations in neural networks." CVPR 2019.
[2] Levinson, Jake, et al. "An analysis of svd for deep rotation estimation." NeurIPS 2020.
[3] Peretroukhin, Valentin, et al. "A smooth representation of belief over so (3) for deep rotation learning with uncertainty." Robotics: Science and Systems 2020.
[4] Wang, He, et al. "Normalized object coordinate space for category-level 6d object pose and size estimation." CVPR 2019.
[5] Wu, Zhirong, et al. "3d shapenets: A deep representation for volumetric shapes." CVPR 2015.
本文暂时没有评论,来添加一个吧(●'◡'●)