Po1o's Mind Palace

日月升落,总有黎明 --杨绛

0%

论文笔记:Deep Learning for Person Re-identification:A Survey and Outlook(行人重识别综述)

前言

​ 武汉大学叶茫教授在2022年发布的一篇关于行人重识别Reid综述和展望的论文《Deep Learning for Person Re-Identification: A Survey and Outlook.》 –Mang Ye,行人重识别综述

​ 本篇论文主要讲述了:

  • 行人重识别领域发展以来的各种实现方法,并举出了它们的优缺点

  • 总结Reid任务由五部分流程构成

  • 提出Close-world和Open-world两类型的Reid工作

  • 新的评价指标mINP;新的baseline:基于AGW的单-多模态reid

这篇论文有利于行人重识别的初学者大致了解该领域先前的工作,这篇文章更加侧重Open-world类型的多模态行人重识别工作,也是目前困难比较多的行人重识别方向。

计算机视觉论文中的Baseline

​ 在计算机视觉领域中的算法创新,都要有一个标准来进行比较才能知道新算法是否创新。

  • Benchmark:一个算法被称为Benchmark,是因为它的是因为它的性能已经被广泛研究,人们对它性能的表现形式、测量方法都非常熟悉,因此可以作为标准方法来衡量其他方法的好坏。简单来说创新的指标标准要好过benchmark的标准,一般新算法用SOTA(state-of-the-art)的算法作为benchmark是最好的。

  • Baseline:一个算法被称为baseline,基本上表示比这个算法性能还差的基本上不能接受的,除非方法上有革命性的创新点,而且还有巨大的改进空间和超越benchmark的潜力,只是因为是发展初期而性能有限。所以baseline有一个自带的含义就是“性能起点”。这里还需要指出其另一个应用语境,就是在算法优化过程中,一般version1.0是作为baseline的,即这是你的算法能达到的一个基本性能,在算法继续优化和调参数的过程中,你的目标是比这个性能更好,因此需要在这个baseline的基础上往上跳。

  • 简而言之,benchmark一般是和同行中比较牛的算法比较,比牛算法还好,那你可以考虑发好一点的会议/期刊;baseline一般是自己算法优化和调参过程中自己和自己比较,目标是越来越好,当性能超过benchmark时,可以发表了,当性能甚至超过SOTA时,恭喜你,考虑投顶会顶刊啦。

    参考链接:https://blog.csdn.net/qq_41088475/article/details/105756552

0.摘要

1)通过行人重识别领域的研究,将该领域分为封闭世界(closed-world)和开放世界(open-world)两大类研究。
2)封闭世界:深度特征表示学习深度度量学习排名优化。封闭世界的研究成果逐渐达到饱和,研究重心自然落在开放世界上,可用五个方面总结其研究。
3)提出名为AGW的baseline,引入针对ReID的新评价指标mINP

1.Introduction

原文:Re-ID is a challenging task due to the presence of different viewpoints, varying low-image resolutions , illumination changes, unconstrained poses , occlusions, heterogeneous modalities , complex camera environments, background clutter , unreliable bounding box generations, etc. These result in varying variations and uncertainty.

目前reid(主要是开放世界)的研究困难主要在不同视角、参差不齐的低分辨率图像、光照变化、姿态不同、遮挡情况、异构模态数据

针对特定场景构成reid系统需要五个步骤

image-20220604175417280

1)原始数据收集:从处于不同环境的不同地方的摄像机获取原始视频数据。这些数据包含大量的背景杂波。
2)边界框(Bounding Box)生成:通过行人检测或跟踪算法从原始视频数据中提取包含行人图像的边界框。在大规模应用中不可能手动裁剪所有行人图像。
3)训练数据标注:对于区分行人任务来说,图像标注必不可少。
4)模型构建和训练:已经开发了广泛运用的模型,重点在于特征表示学习、度量学习或两者结合。
5)实践测试阶段:给定一个query和一组gallery,使用上一阶段训练完毕的模型进行行人特征提取,计算query图像和gallery图像的相似度进行排序。

封闭世界和开放世界的五大差别有

1、单模态和异构数据(Single-modality Data vs. Heterogeneous Data):对于步骤1中的原始数据收集,默认所有行人都是在可见光单模态下进行拍摄的,但是在实际的开放世界中,数据可能是异构的,例如,行人可能是在不同光谱、草图、深度图像相机所捕获,甚至可能是文本描述。(这也是本博客关注的重点,即跨模态行人重识别)

2、边界框生成和原始图像/视频(Bounding Box Generation vs. Raw Images/Videos):封闭世界中的行人重识别通常基于边界框提取的行人图像或视频进行训练和测试。但是在实际开放世界中需要直接从原始图像/视频中进行端到端的行人检索。

3、丰富的标签数据和不可用/有限的标签(Sufficient Annotated Data vs. Unavailable/Limited Labels):封闭世界中,行人图像都是标注好的。但在实际应用中,标注费时费力成本高。故引发了有监督和无监督领域。

4、正确标签和噪声标签(Correct Annotation vs. Noisy Annotation):现有的封闭世界的行人重识别领域通常假定所有标签清晰且正确。然而实际应用中,标签噪声和不完善正确的检索跟踪结果导致的样本噪声也都不可避免,故引出了不同噪声类型下的鲁棒行人ReID。

5、query是否存在于gallery中(Query Exists in Gallery vs. Open-set):现有的封闭世界行人ReID都假设查询必须存在于图库中,并计算CMC和mAP。但是在现实情况中,查询行人不一定出现在图库中

批注:Query和Gallery

行人重识别的数据集与普通的视觉检测数据集不同,包括训练集、验证集、Query和Gallery,其中训练集和验证集是模型训练时候使用的,query是模型的输入数据,一张行人boundingbox叫prob,多个prob称为query。Gallery则是模型内存储的行人数据,prob就是要在gallery内寻找匹配的行人并且给出rank。

image-20220604175952635

2.Closed-world Re-ID(封闭世界)

此设置通常具有以下假设:(即与开放世界的五大差别)

​ 1)通过单模态可见光摄像机捕获行人。

​ 2)已经给出行人bounding box。

​ 3)有足够的标注好的训练数据。用于监督训练。

​ 4)标签通常是正确的。

​ 5)query行人必须出现在图库中。

通常来说CW的ReID包括三个主要组件:

2.1 Feature Representation Learning(特征表示学习)

image-20220604180451609

2.1.1 Global Feature Representation Learning(全局特征)

将同一个行人的所有图像视为同一类(同一个ID),提取全局特征,将ReID任务视为一个多分类问题。
注意力机制也被广泛应用以增强特征表示学习。1)行人图像中attention 2)跨多行人注意力

2.1.2 Local Feature Representation Learning(局部特征)

具体方案不在此赘述,基本思路即在全局特征之外附加局部特征信息,必定能通过更多信息获得更好的结果。但有些分块技术需要额外的人体姿态对齐策略辅助,而固定分块技术(例如PCB)通过水平划分来进行分块,对重度遮挡和背景杂波敏感。

2.1.3 Auxiliary Feature Representation Learning(辅助特征)

通常需要附加额外的注释信息,可以是文字注释(semantic attributes),或利用GAN生成额外的训练样本进行原有数据的扩充(GAN Generation);除此之外还有Domain Information(DGD算法-Domain Guided Dropout)和Viewpoint Information(MLFN-Multi Level Factorisation Net)。

2.1.4 Video Feature Representation Learning(视频特征)

2.2 Deep Metric Learning(深度度量学习)

2.2.1 Loss Function Design损失函数的设计

image-20220604181220879

如图分为三种:交叉熵损失函数(简单的多分类)、验证损失(对比损失)、三元组损失

3.Open-World Person ReID(开放世界)

3.1 Heterogeneous Re-ID (多模态行人重识别)

3.2 End-to-End Re-ID

3.3 Semi-supervised and Unsupervise Re-ID

3.4 Noise-Robust Re-ID

3.5 Open-set Re-ID and Beyond

4.AN OUTLOOK: RE-ID IN NEXT ERA

  • 新的评价指标mINP
  • AGW baseline
-------------本文结束感谢您的阅读-------------
钱乃身外之物,开心无价。