CVPR 2019 提前看：工业界与学术界的深度融合专题

本次对于 CVPR2019 接收论文的探讨笔者想专注于学术研究于业界的贡献——以从业者的角度，讨论怎样的研究对于工业产品有更高的借鉴价值。当然，从产品角度看来有些「无用」的研究仍然是十分重要、需要投入资源的，只不过已经有大量关于学术会议的文章集中于讨论此类基础、创新的研究，因此笔者不妨「另辟蹊径」。

论文讨论

1. Direct Object Recognition Without Line-of-Sight Using Optical Coherence

链接：https://arxiv.org/pdf/1903.07705.pdf

光不仅有强度（intensity）信息，更包含了相位信息。普通光源发出的是非相干光（incoherent light），据此获得的照片将会丢失相位信息。而根据激光等相干光的拍摄的照片强度依赖于反射光源的物体的几何形状和相对于图像的位置，因此，拍摄具有复杂表面几何形状的物体折射的相干光，图像上会呈现复杂的、看似随机的干涉图案，即散斑图案。相位信息由散斑图案中的光强度的明暗分布表示。

图 1.1: 左：手写数字的散斑图案模拟；右：人体姿势的散斑图案模拟

此外，从上图右可以看出，不仅仅不同的数字、姿势等模式可以形成不同的散斑图案，不同的人体折射的激光也会形成不同的散斑图案，因为不同人的身材等特征不同。这会给识别任务造成一定的困难。

图 1.2: 实验的 4 种设置

表 1.1:神经网络识别手写数字散斑图案结果

图 1.3:神经网络识别人体姿势散斑模拟图案结果

图 3 显示了神经网络（resnet-18）识别人体姿势散斑模拟图案结果，这里的结果全部是基于仿真得到的结果，且仅使用了第一种实验设置，因此可以预见在实验数据上准确度应该还会进一步下降。10 个姿势的平均识别准确率为 78.18%，最高可以达到 91%，最低则只有 56%，相对于手写数字识别的表现来说是一个比较大的下降。不过，如果使用的神经网络经过更细致的调优，这部分准确率的损失也许能够被弥补。

自动驾驶

等场景中得到应用的可能性暂时还比较小——仅考虑相机需要拍摄到被折射的激光所形成的散斑图案就已经是一个很大的问题——但在一些单调的场景中也许已经可以找到用武之地。

2. Precise Detection in Densely Packed Scenes

链接：https://arxiv.org/pdf/1904.00853.pdf

图 2.1：检测系统图示。（a）输入图像；（b）基础网络，带有边界框（BB）和 objectness (Obj.) heads，以及 Soft-IoU 层；（c）利用 EM 算法（EM-Merge）将 Soft-IoU 转换为 Gaussian heat-map;（d）被多个重叠边界框检测到的对象；（e）合并重叠检测。

IoU，即 Jaccard index，用于衡量回归检测框和对象位置的重合程度，在目标检测中十分常见。这里笔者仅简单给出文中的定义——给定 N 个预测，预测的边界框$b_i$，i∈{1..N} 与实际边界框$hat{b_i}$之间的 IoU 定义为：

网络的损失函数则由三部分组成，即 detection head 的回归损失，classification head 的分类损失，以及 Soft-IoU 的交叉熵。

其中p为 2D 图像坐标，因此，第 i 个检测的 4 元组边界框，（x_i，y_i，h_i，w_i），中的框的中心点 (x_i，y_i) 可以由$mu_i$表示，框的大小 (h_i，w_i) 则可以由协方差矩阵$Sigma_i = [(h_i/4)^2, 0; 0, (w_i/4)^2] 表示。

将这些高斯分布结合起来，则可以用一个高斯混合分布（MoG) 表达：

其中混合系数$alpha_i = frac{c^{iou}}{sum_{k=1}^N c^{iou}_k}$由模型给出，故与实际边界框重合更多的预测会被分配更多权重。

图 2.2：可视化 EM-Merger 单元的输出。

图 2.2 将高斯混合分布（MoG) 转换为 heat map 进行了可视化，可以达到像素精度，每个检测区域的高斯混合分布密度由累积的 Soft-IoU 加权计算得出。

我们希望两个高斯混合分布之间的 KL 散度尽可能的小：

上述优化问题可以用 EM 算法求解，E-step 将每个边界框分配到最近的边界框集群，其中边界框相似性由相应高斯分布之间的 KL 距离定义；M-step 随后对模型的参数（$beta$, $mu$, $Sigma$）重新进行估计。

表 2.1:检测运行时比较

表 2.2:检测精度比较

文章所提出的方法相较 faster-rcnn 和 yolo9000 在运行速度上仍然有明显的差距，不过其检测精度大大优于后两个网络。模型的 precision 和 recall 并没有比 RetinaNet 高很多，但 MAE 和 RMSE 小了很多，说明模型预测的每一个检测框几乎都更准确的检测到了目标（RetinaNet 有很多多余的检测框），在其后告的计数任务上的表现也证明了模型在这方面的能力。

笔者个人很欣赏这篇文章的算法设计，引入的 Soft-IoU 和 M-Merger 单元及其简单精巧的求解，但模型表现的提升仍有些不够惊艳，不过这也说明了这些密集的场景仍然是未来工作的一个挑战性前沿。另外，笔者认为在这类场景中传统计算机视觉算法也许能够取得不错的结果——如从灰度图像的边缘/线条检测出发——如果能够看到模型与这类传统模型的表现和运行速度的比较就更好了。

3. RegularFace: Deep Face Recognition via Exclusive Regularization

链接：http://mftp.mmcheng.net/Papers/19cvprRegularFace.pdf

对于分类任务来说，传统上我们使用 softmax 来引导 cnn 将输入数据转化为可分的特征，但由于特征的类内方差较大，会出现某些类内距离大于类间距离的情况，造成分类困难。学习辨别性特征（discriminative feature）是准确识别不同类别的关键。类间分散程度 (inter-class separability) 与类内紧凑程度 (intra-class compactness) 是具有辨别性的两个重要因素：属于同一类的特征应当在表示空间中更接近，而属于不同类的特征在表示空间中则应该比较疏远。

softmax 这里笔者不过多赘述，仅给出定义。

1(.) 是一个指标函数，当条件为真时值为 1，否则值为 0。y_i 为输入数据对应的标签，C 是标签类的数量。然后我们将偏置归零并归一化 W 的每一列以推导角度 Angular softmax loss，给定的向量 x_i 属于类 c 的 xi 的后验是：

在上式中，是$phi_{i,j}$是 x_i 特征和权重向量 W_j 之间的角度。显然，最小化 softmax loss 相当于最小化$phi_{i,y_i}$。因此，权重向量 W_j 可以被视为所有 y_i = j 的 xi 的聚类中心。由于偏置 b 为 0，权重的模为 1，决策边界的角度现在只取决于角度，可以大大简化问题。

SphereFace 本质上使用的就是 Angular softmax loss，但其在决策边界引入了角度余量，以便在超球面空间中压缩相同类别的特征表示。

其中 m 是超参数，来控类别之间的 angular margin。当 m = 1 时，上式完全等价于 Angular softmax loss 的后验分布。

笔者认为这个思想和 svm 的设计有些相像：面对一系列能够区分来自不同的类的特征的决策边界，svm 试图找到能够最大化到不同类的例子的距离的决策边界。并且由于 svm 可以将训练数据映射到更高维的空间内，找到合适的决策边界的难度也大大降低了。

Center loss 的思想则有些类似 k-means 算法。它的特征与其相应中心之间的欧几里德距离，目的是在表示空间中强加类内紧凑性：

其中 x_i 是样本 i 的对应特征，c_{yi} 则是相应的中心。

其中$phi_{i,j}$是 W_i 和_Wj 之间的角度。理想情况下，聚类中心应该是均匀分布的，并且尽可能远离其他聚类中心，因此，cos 值应当较小。换句话说，Sep 的平均值和标准差应该尽可能小。下表列出了用不同损失函数训练的模型的定量比较。模型使用的网络和数据集都是一样的。

表 3.1:不同不同损失函数的类间可分性。「随机」表示模型参数是从均匀分布中提取的。

表 3.1 的统计数据证明了以上方法的聚类中心分布不是很好。不过，从上述数据也很难看出这种区别是否具有统计显著性。另外，SphereFace 的数据实际上不错，将偏置归零并将权重能够明显减小方差，angular margin 的引入则能减小均值。

下图 3.1 对上文提到的损失函数进行了可视化表示。

图 3.1: 可视化不同损失函数的决策边界，点代表数据对应的特征，不同颜色表示不同类别。

可以看到，Softmax loss 仅学习可分离的决策边界；Angular softmax loss 和 Softmax loss 本质上是等价的，但学习的是角度可分离的决策边界； Center loss 将属于同一类的特征表示「拉」到其中心，以便获得紧凑和有辨别力的表示；SphereFace 将数据点的外边界「推远」； RegularFace 将数据点的中心「推远」。

在实际应用中，将这一正则化与 Angular softmax loss——或其他损失函数——加在一起，就是完整的 RegularFace。这样，Angular softmax loss 将样本 x_i 对应的特征拉向其聚类中心 W_{yi}。同时，正则化项将推动不同的聚类中心分离。

4. Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation

链接：https://arxiv.org/pdf/1901.02985.pdf

作为一个搜索问题，自然的，执行任务之前需要对搜索空间定义。在 NAS 任务中，神经架构搜索空间是定义的子空间，通过对一般的神经架构施加约束来定义可能的神经架构，并且形成一个有限的运算空间。搜索空间可以分为两类：全局搜索空间和 cell-based 搜索空间。

由于目前取得优秀表现的神经架构几乎都基于重复的固定结构，然后由这个固定结构堆叠起来形成神经网络的大概架构。因此，神经架构搜索可以对这样的固定结构——一般称为单元（cell）——进行搜索。而全局搜索空间中假设有一个架构模版，用于限制搜索架构时可以选择的运算，整体来说，自由度较大。对于 NAS 的更多介绍，可以参考机器之心的这篇文章：

神经架构搜索方法知多少

。

从数学上，可以定义为每个模块的输出张量 H_i^l 都连接到输入 I_i^l 中的所有隐藏状态：

这里 O_{j→I} 可以用它的连续松弛ōj→i 近似：

其中：

换句话说，α_{j→i}^k 是与每个运算符 O^k 相关联的归一化标量，容易实现为 softmax，从而容易对备选的层类型做出选择。在一个单元内，所有张量都具有相同的 shape，这使得方程中的（加权）总和成为可能。

图 4.1: 层类型集合 O

由于 H^{l-1} 和 H^{l-2} 总是包含在 I_i^l 中，并且 H^l 是 {H_1^l,…, H_B^l} 的串联。结合此前的数学表达，单元的更新方程可以表达为：

可能的组合运算符 C 的集合则仅包括元素添加（element-wise addition）。

全局搜索空间方面，网络的搜索起点总是一个两层「骨干」神经网络，用于将分辨率降低两倍。此后，神经网络可以最多有 L 层，每层可以下采样或维持目前的分辨率，最终分辨率可以被降低 4-32 倍。下图给出了这个搜索思路的图示，搜索目标是在这个 L 层的空间中找到合适的路径。

图 4.2: NAS 搜索策略图示

图 4.2 中的左侧图解了全局搜索空间，灰色节点表示固定的「骨干」神经网络，沿蓝色节点的路径表示候选神经架构。灰色箭头代表了标量β，用于控制网络整体架构。网络的更新方程为：

其中 s=4，8，16，32，即下采样倍数，l=1，2，…，L。因此，蓝色节点连接的三个箭头代表着该层之后神经网络应该下采样、维持分辨率不变或上采样，分别对应上式的三个部分。

标量β需要被归一化，以保证β也容易实现为 softmax：

图 4.2 中的右图表明在搜索过程中，单元（cell）之间是密集连接的结构。每个黄色箭头与α_{j→i} 相关联。concat 之后的三个箭头分别与β_{s/2→s}^l，β_{s→s}^l，β_{2s→s}^l 相关联。

虽然笔者起初感觉这种全局搜索的设计有些「人工」，但令人惊讶的是，该设计的表示能力非常强大。

图 4.3: 目前流行的网络设计用文中的搜索空间表达

小结

这种「矛盾」也适用于业界的人才的要求——一方面，数据爆发、知识增加，使得人们精通一门学科/研究越来越难；另一方面，跨学科的知识融合越来越重要。这似乎有些困难，不过笔者相信，热爱这份工作的人一定会对面对的困难感到兴奋，同时在新知识的学习中找到乐趣。毕竟在工作中能够自由地、名正言顺地探索、试错、测验自己的想法的机会并不多 :p

机器之心个人主页：
https://www.jiqizhixin.com/users/a761197d-cdb9-4c9a-aa48-7a13fcb71f83

声明：本站部分文章内容及图片转载于互联网、内容不代表本站观点，如有内容涉及侵权，请您立即联系本站删除。

CVPR 2019 提前看：工业界与学术界的深度融合专题

相关推荐

发表回复