본문 바로가기
Develop/Python

인물특징+색상 관련 VLM-PAR PyTorch 구현

by ys2ys2 2026. 3. 27.

 

https://arxiv.org/abs/2512.22217

 

VLM-PAR: A Vision Language Model for Pedestrian Attribute Recognition

Pedestrian Attribute Recognition (PAR) involves predicting fine-grained attributes such as clothing color, gender, and accessories from pedestrian imagery, yet is hindered by severe class imbalance, intricate attribute co-dependencies, and domain shifts. W

arxiv.org

 

2025년 12월에 발표된 VLM-PAR 논문은 SigLIP 2 비전-언어 모델을 활용해 보행자의 속성(성별, 상의 유형, 하의 유형, 모자 착용 여부 등)을 인식하는 알고리즘이고 PA-100K 벤치마크에서 mA 92.88%로 SOTA 달성.

 

구현

해당 논문의 아키텍쳐대로 PyTorch 구현

 

사전학습된 비전-언어 모델(SigLIP 2)은 이미 의류, 액세서리, 신체 특성을 잘 이해하고 있기 때문에 CNN을 처음부터 학습하는 대신 SigLIP 2의 이미지 인코더를 동결하고 속성별 독립 Cross-Attention 모듈만 학습하여 높은 정확도를 달성.   

 

논문에서는 PA-100K(26개 속성)를 사용했지만, PA-100K에는 색상 속성이 없어서 의류 색상 분류가 불가능.

이를 보완하기 위해 RAP v2 데이터셋(CCTV 촬영, 92개 속성)에서 실용적으로 필요한 38개 속성(성별, 모자, 안경, 상의 유형 9종, 상의 색상 12색, 하의 유형 6종, 하의 색상 8색)을 선별하여 학습 진행.

(학습환경 AMD Radeon PRO W7800 * 2)

 

논문 대비 변경점

1. 속성 수 26개 → 38개 (색상 20종 추가)

2. 데이터셋: PA-100K(거리 사진) → RAP v2(CCTV 이미지셋)

3. Cross-Attention 구조 - 논문과 동일 (속성별 독립)

 

결과

RAP v2 테스트셋 기준 mA 88.14% 달성

성별 - 95.9%

모자/안경 - 87.3%

상의 유형 - 85.0%

상의 색상 - 89.8%

하의 유형 - 91.6%
하의 색상 - 85.9%

 

 

사용 기술: PyTorch, SigLIP 2 (Google, Apache 2.0), open_clip, RAP v2

 

GitHub: https://github.com/ys2ys2/vlm-par