Deep Spatial-Semantic Attention for Fine-Grained Sketch-Based Image Retrieval

CVPR2017，就sketch me that shoe改的
刚发现论文作者之一的宋老师实验室就叫SketchX，牛啊

最近又把这篇文章看了一下，做一些更新

1、Overview

这篇文章是基于sketch me that shoe上进行的。
主要工作如下：

为了让模型更加关注到细粒度的特征，加入了soft attention；
因为两个模态经过映射之后其实存在不对齐的特征，所以加connect，最后换loss里的energy function；
又加connect来fuse coarse 和 fine 的粒度特征。

2、Methodology

先放网络结构图

整个流程也很简单，就还是在triplet的基础上进行改进的，具体的接下来介绍。

2.1 Attention

这里加入attention是因为作者认为，之前的网络并没有太多关注到细粒度的特征，这里的的attention实现也很简单，就是两个1x1conv的结合。

2.2 shortcut connection

这里的连接就是resnet里的一样，有两个地方用了。
第一个是在attention模块，是因为，作者认为因为提取出来的vector是不对齐的，因此直接做attention map就是错的(是不是有点绝对了)，因此用shortcut将没有attention的vector加了过来。
另外一个地方就是后面要经过fc的时候，经过两个fc，得到了attention map就🈚️了，所以又加了一个shortcut直接连到后面的输出部分。
这里并不是attention无了，我理解的attention是一个很敏感的东西，经过任何计算的处理都会损害他的特征表示，而且全连接层也是一个计算性很强的东西，所以可以理解。

2.3 HOLEF Loss

这里的triplet loss其实和之前的思路还是一样，就是将之前的欧式距离换成了高阶的方式

像这样，结果

可以看出，多了很多重复的项，我的理解就是多了更多的冗余，可以cover掉一些feature没对齐的问题。在接下来也会对这个loss加一个权重继续进行计算。
为什么要换呢？因为是一个跨模态的任务，因此feature map不对齐，欧氏距离只会关注对应像素点的关系，忽略了无关的像素点，在这种情况下会损失一些信息。

3、Insights

这个文章中加了注意力等，肯定要比没注意力的效果好吧，but，but，but，在场景的FGSBIR问题当中，这个方法没有sketch me that shoe的效果好。但是这俩网络一直都是后来很多论文的baseline。

在消融实验中，我们可以看到其实HOLEF的这个改进提升点很有限，它确实有道理，但没有从那么有深度的方面有一些改进。当时cross domain的研究还没有很多，这篇也是个不错的尝试了。