选自LSVRC2017
机器之心编译
参与:机器之心编辑部

ImageNet2017简介:
这次挑战赛评估了从大规模的图像/影像中进行物体定位/检测的算法。最成功和富有创新性的队伍会被邀请至CVPR2017workshop进行展示。
1.对1000种类别进行物体定位
2.对200种全标注类别进行物体检测
目标检测(Objectdetection)
如下所示,目标检测任务取得最好成绩的是由南京信息工程大学和帝国理工学院组成的BDAT,该队成员HuiShuai、ZhenboYu、QingshanLiu、XiaotongYuan、KaihuaZhang、YishengZhu、GuangcanLiu和JingYang来自于南京信息工程大学,YuxiangZhou和JiankangDeng来自于帝国理工学院(IC)。
该团队表示他们在LOC任务中使用了适应性注意力机制[1]和深度联合卷积模型[2,3]。Scale[4,5,6]、context[7]、采样和深度联合卷积网络在DET任务中得到了有效的使用。同时他们的得分排名也使用了物体概率估计。
[1]ResidualAttentionNetworkforImageClassification[J].arXiv:1704.06904,2017.
[2]Deepresiduallearningforimagerecognition[C]//Proc:770-778.
[3]Inception-v4,Inception-ResNetandtheImpactofResidualConnectionsonLearning[C]//:4278-4284.
[4]U-net:Convolutionalnetworksforbiomedicalimagesegmentation[J].arXiv:1505.04597,2015.
[5]Featurepyramidnetworksforobjectdetection[J].arXiv:1612.03144,2016.
[6]Beyondskipconnections:Top-downmodulationforobjectdetection[J].arXiv:1612.06851,2016.
[7]CraftingGBD-NetforObjectDetection[J].arXiv:1610.02579,2016.
任务1a:使用提供的训练数据进行目标检测
根据检测出的目标数量排序
根据平均准确率排序
而在目标检测任务中新加坡国立大学(NUS)和奇虎360组成的NUS-Qihoo_DPNs(DET)也获得了不错的成绩。
他们在基于FasterR-CNN的目标检测任务中,采用了一个包含全新双路径拓扑的双路径网络(DPN/DualPathNetwork)。DPN中的特征共享机制和探索新特征的灵活性被证明在目标检测中有效。特别地,研究人员采用了若干个DPN模型——即DPN-92、DPN-107、DPN-131等——作为FasterR-CNN框架中的中继特征学习器(trunkfeaturelearner)和头分类器(headclassifier)。他们只使用最多131层的网络,因为在大多数常用的GPU内,它易于训练和适应,且性能良好。对于区域提案生成,利用低级细粒度特征取得了有效的proposals召回。进而,通过在分割成检测框架中采用扩展卷积,他们合并了有益的语境信息。在测试期间,他们设计了一个类别加权策略,以探索不同类别的专家模型,并根据多任务推断把权重用到不同的专家。除此之外,他们在图像分类任务中采用了预训练的模型以提取整体语境信息,这可在整体输入图像中为探测结果的推理提供有益的线索。
任务1b:使用额外的训练数据进行目标检测
根据检测出的目标数量排序
根据平均准确率排序
目标定位(Objectlocalization)
在给定训练数据进行分类和定位的任务中,WMW取得了优异的成绩,分类误差率是最低的。
他们设计了一个新型结构的构造模块,叫做「挤压与激励」(「Squeeze-and-Excitation——SE」)。每一个基础构造模块通过「挤压」操作在全局接收域中嵌入信息,并且通过「激励」操作选择性地引起增强型响应(responseenhancement)。SE模型是该团队参赛作品的基础。他们研发了多个版本的SENet,比如SE-ResNet,SE-ResNeXt和SE-Inception-ResNet,在增加少量运算和GPU内存的基础上,这明显超过了它们的非SE对应部分。该团队在验证数据集中达到了2.3%的top-5误差率。
任务2a:使用提供的训练数据进行分类+定位
根据定位错误率排序
根据分类错误率排名
在使用附加训练数据进行分类和定位的任务中,NUS-Qihoo_DPNs(CLS-LOC)的定位误差率和分类误差率如下所示都取得很好的成绩。据该团队介绍,他们构建了一个简单、高效、模块化的双路径网络,引入了全新双路径拓扑。这一DPN模型包含一个残差路径和一个稠密连接路径,二者能够在保持学习探索新特征的灵活性的同时共享共同特征。DPN是该团队完成全部任务使用的主要网络。在CLS-LOC任务中,他们采用DPN来预测Top-5目标,然后使用基于DPN的FasterRCNN分配对应的定位边界框。
任务2b:使用额外的训练数据进行分类+定位
根据定位错误率排名
根据分类错误率排名
根据检测出的目标数量排序
根据平均准确率排序
根据检测出的物体数量排序
根据平均准确率排序
近日,WebVision也发布了其视觉竞赛的结果,MalongAIResearch获得了图像分类任务的最优成绩。
WebVision2017挑战赛结果
WebVision图像分类任务
PascalVOC迁移学习任务
获胜团队MalongAIResearch:
我们使用半监督学习方法解决如何利用有噪声的不均衡数据训练大规模深度神经网络的问题。我们首先使用聚类算法将训练数据分成两部分:干净数据和噪声数据,然后使用干净数据训练一个深度网络模型。之后,我们使用所有数据(包括干净数据和噪声数据)来训练第一个模型(干净数据训练出的模型)上的网络。值得注意的是,我们在该网络的原始卷积层上使用了两个不同大小的卷积核(5,9)。至于训练,我们在干净数据上进行数据平衡,并设计了一个新的自适应lr下降系统,该系统根据噪声的类型(干净数据和噪声数据)略有不同。
WEBVISION数据集
WebVision数据集的设计是用来促进从嘈杂互联网数据中学习视觉表征的相关研究的。我们的目的是使深度学习方法从巨大的人工劳力(标注大规模视觉数据集)中解脱出来。我们把这个大规模网络图像数据集作为基准来发布,以推进在网络数据中进行学习的相关研究,包括弱监督视觉表征学习(weaklysupervisedvisualrepresentationlearning),视觉迁移学习(visualtransferlearning),文本与视觉(textandvision)等等(详见WebVision数据集的推荐环境配置)。
WebVision数据集包含超过24万张的图像,它们是从Flickr网站和谷歌图像搜索引擎中爬取出来的。与ILSVRC2012数据集相同的1000张图像用于查询(query),因此可以对一些现有方法直接进行研究,而且可以与在ILSVRC2012数据集中进行训练的模型进行比较,还可以使在大规模场景中研究数据集偏差(datasetbias)的问题成为可能。伴随那些图片的文本信息(例如字注、用户标签或描述)也作为附加的元数据信息(metainformation)来提供。提供一个包括50,000张图像(每一类别50张)的验证数据集以推进算法级研发。一个简单基准的初级结果展示了WebVision在一些视觉任务中是能够学习鲁棒性表征的,其性能表现与在人工标注的ILSVRC2012数据集中学习的模型相类似。
数据集详情
数据统计
在我们的数据集中,每一类别的图像数量如图1所示,从几百到超过10,000。每一类别中的图像数量依赖于:1)每一类别中的同义词集合生成的查询指令(query)的数量,2)Flickr和谷歌的图像的有效性。
图1:WebVision数据集中每一类别的图像数量
简易基准评估
我们使用一个简单的基准对用于学习视觉表征的网络数据容量进行了调查研究。我们把来自Flickr和Google的已查询图像作为我们的训练数据集,并且从零开始在这一训练集上对AlexNet模型进行训练。然后我们在Caltech-256数据集和PASCALVOC2007数据集的图像分类任务中对学习后的AlexNet模型进行了评估,并且也在PASCALVOC2007数据集的物体识别相关任务中做了检测。
图像分类
我们使用一个简单的基准调查研究了用于学习深度网络的网络数据容量。我们分别在WebVision训练集和ILSVRC2012数据集上从头训练AlexNet模型,然后在WebVision验证集和ILSVRC2012验证集上对这两个模型进行评估。需要注意的是,在WebVision数据集上训练模型时未使用人工标注数据。这里我们对top-5(top-1)的准确率进行了报道。
结果如下:(1)使用WebVision数据集训练的CNN模型性能优于使用人工标注的ILSVRC2012数据集训练的模型;(2)存在数据偏差,即在WebVision验证集上对这两个模型进行评估时,在WebVision上训练的模型优于在ILSVRC2012上训练的模型,反之亦然。这对领域适应研究者可能是一个有意思的话题。





