Person Re-Identification
비디오 또는 이미지 시퀀스의 다양한 카메라나 위치에서 사람의 신원을 일치시키는 것이 목표인 컴퓨터 비전 Task.
- 사람을 감지하고 추적한 다음 외모, 체형, 의복 등의 특징을 사용해 다양한 프레임에서 신원을 일치시키는 작업 포함.
- 목표 : 강력하고 효율적인 방식으로 겹치지 않는 여러 카메라 뷰에서 동일한 사람을 연결하는 것. 단일 카메라도 가능
Dataset
Market-1501
Person re-identification을 위한 대규모 공개 벤치마크 데이터셋.
- 6개의 서로 다른 카메라로 캡처된 1501개의 신원과 *Deformable Part Models[DPM] 보행자 감지기를 사용하여 얻은 32,668개의 보행자 이미지 Boudning box가 포함.
- 각 사람은 평균 14.8개의 이미지를 가지고, 각 시점에서 평균 3.6개의 이미지를 가짐.
- 750개의 ID는 훈련에 사용되고 나머지 751개의 ID는 테스트에 사용됨.
- 공식 테스트 프로토콜에서는 3,368개의 query 이미지가 19,732개의 참조 갤러리 이미지에서 올바른 일치를 찾기 위한 프로브셋으로 선택
- hand-drawn bbox -> 인식 정확도가 더 높음.
Market-1501-C
알고리즘적으로 생성된 손상을 Market-1501 테스트셋에 적용하여 구성된 평가 셋.
- 노이즈: Gaussian, shot, impulse, speckle
- 흐림: defocus, frosted glass, motion, zoom, Gaussian
- 날씨: snow, frost, fog, brightness, spatter, rain
- 디지털: contrast, elastic, pixel, JPEG compression, saturate
- 각 손상에는 5가지 시각도 수준이 있어 100가지 손상이 발생.
MARS
- Motion Analysis and Re-identification Set: Market-1501 데이터셋을 확장한 대규모 비디오 기반 개인 재식별 데이터셋.
- 거의 동기화된 카메라 6대에서 수짐.
- 1,261명의 보행자로 구성되어 있으며 최소 2대의 카메라로 포착.
- 보행자의 포즈, 색상, 조명의 변화와 열악한 이미지 품질로 인해 높은 일치 정확도를 얻기가 매우 어려움.
- 보다 현실적으로 만들기 위해 3,248개의 방해 요소가 포함.
- DPM과 GMMCP 추적기를 사용해 트랙렛[대부분 25-50 프레임 길이]을 자동으로 생성.
DukeMTMC-reID
- Duke Multi-Tracking Multi-Camera ReIDentification: 이미지 기반 person re-ID를 위한 DukeMTMC의 하위 집합
- 8개의 서로 다른 카메라의 고해상도 비디오로 생성.
- 702개의 ID에 대한 16,522개의 훈련 이미지, 다른 702개의 ID에 대한 2,228개의 쿼리 이미지, 17,661개의 갤러리 이미지로 구성.
MSMT17
- Multi-Scene Multi-Time person re-identification 데이터셋
- 12개의 실외 카메라, 3개의 실내 카메라로 12 time slot 동안 캡처된 180시간의 비디오로 구성.
- 비디오는 오랜 시간을 다루고 복잡한 조명 변화를 보여주며, 주석이 달린 많은 수의 ID[예: 4,101개의 ID와 126,441개의 bbox]를 포함.
Metric
mAP[mean Average Precision]
Precision: 모델이 정답이라고 예측한 것 중 실제 정답의 비율
Recall: 실제 정답 중 모델이 정답이라고 예측한 것의 비율
PR Curve: confidence에 대한 threshold 값이 변화함에 따른 Preicision과 Recall의 변화량을 나타낸 그래프
AP: PR Curve의 아래 영역(PR Curve가 단조적으로 감소하도록 수정 후 계산)
mAP: AP의 평균
mINP
rank 순으로 일치 항목을 찾으면 AP가 더 높더라도 계산적으로 비효율적일 수 있음.
이를 해결하기 위해 계산적으로 효율적인 측정 기준인 NP를 설계.
순위가 가장 낮은 일치 항목을 찾기 위한 패널티를 측정.
NP가 작을수록 성능이 좋기 때문에 mAP와의 일관성을 위해 NP의 역연산인 INP를 사용.
mINP: INP의 평균
Deep Learning for Person Re-identification: A Survey and Outlook [IEEE 2021 v2]
일반적인 Re-id 시스템은 아래의 절차를 거침.
- Raw Data Collection: 카메라로부터 영상 받아오기.
- Bounding Box Generation: Detecting, Tracking Algorithms 이용하기.
- Training Data Annotation: Closs world에서는 Classification 수행, Open world에서는 unlabel classification 수행하기.
- Model Training: Re-id 수행하기.
- Pedestrian Retrieval: Query person 검색하기. query-to-gallery similarity를 비교해 내림차순으로 나열하는 retrieved ranking 수행. 이 작업을 위해 retrieval performance를 향상시키기 위한 ranking optimization을 수행해야 함.
Closed world vs. Open world Person Re-id
- Single-modality Data vs. Heterogeneous data:
Closed world에서는 일반적인 카메라 영상만을 사용하지만, Open world에서는 적외선 이미지나 sketch, depth image 등 다양한 데이터를 처리할 수도 있음. - Bounding Box Generation vs. Raw Images/Videos:
Closed world에서는 생성된 bounding box를 기반으로 학습 및 테스트를 수행하지만, Open world에서는 end-to-end person search 과정이 필요함. - Sufficient Annotated Data vs. Unavailable/Limited Labels:
label classification의 label은 제한적이기 때문에 Open world에서 label classification은 불가능함. 따라서 unsupervised/semi-supervised Re-id 연구가 필요함. - Correct Annotated vs. Noisy Annotation:
Closed world에서는 정확한 boudning box가 주어지지만 실제 Detection 결과는 정확하지 않고 노이즈가 있음. noise-robust person Re-id 연구 필요. - Query Exists in Gallery vs. Open-set:
Closed wordl에서는 query person이 gallery에 무조건 존재한다고 가정. 하지만 없을 수 있음. 검색보다는 verification(존재 유무 확인 및 검색) 필요.
새로운 평가 metric으로 mINP 제시.
'2024 하계 모각코' 카테고리의 다른 글
[4회차] Drone camera로 Object detection 및 tracking 수행하기 (0) | 2024.07.28 |
---|---|
[4회차] 학습 계획서 (0) | 2024.07.28 |
[3회차] 학습 계획서 (0) | 2024.07.21 |
[2회차] Kalman Filter 적용 (0) | 2024.07.13 |
[2회차] 학습 계획서 (0) | 2024.07.13 |