본 연구 논문에서는 지속적으로 변화하는 환경에서 객체 감지를 위해 사전 훈련된 모델을 효율적이고 안정적으로 적응시키는 새로운 테스트 시간 적응(CTTA) 방법론인 AMROD를 제안합니다. 저자들은 기존 CTTA 방법론의 두 가지 주요 문제점을 해결하는 데 중점을 둡니다. 첫째, 기존 방법론에서 사용되는 고정 임계값 기반 의사 레이블링은 모델 신뢰도가 범주 및 도메인에 따라 다르기 때문에 품질이 낮은 의사 레이블을 생성합니다. 둘째, 치명적인 망각을 완화하기 위한 확률적 매개변수 복원 방법은 본질적인 임의성으로 인해 중요한 정보를 효과적으로 보존하지 못합니다.
AMROD는 객체 수준 대조 학습(OCL), 적응형 모니터링(AM), 적응형 무작위 복원(ARR)의 세 가지 핵심 구성 요소로 이러한 문제를 해결합니다.
OCL은 영역 제안 네트워크(RPN)에서 생성된 제안을 기반으로 객체 수준 특징을 추출하여 대조 학습을 통해 대상 도메인의 특징 표현을 개선합니다. RPN은 다양한 위치와 크기에서 객체 주변의 여러 개의 잘린 보기를 제공합니다. 이러한 잘린 보기에 대조 학습 손실을 적용하면 모델이 유사한 객체 인스턴스는 가깝게 유지하고 다른 인스턴스는 밀어내도록 유도됩니다. OCL은 보다 세분화되고 지역화된 특징 표현을 얻기 위한 드롭인 개선 사항으로 교사-학생 패러다임에 잘 통합됩니다.
AM 모듈은 예측 점수를 사용하여 모델의 상태를 모니터링하고 동적 건너뛰기와 동적 임계값의 두 가지 기능을 제공합니다. 동적 건너뛰기는 불필요한 적응을 중단하여 계산 리소스를 절약하는 반면, 동적 임계값은 범주별 임계값을 동적으로 업데이트합니다. AM은 예측된 신뢰도 점수의 평균을 기반으로 적응을 일시 중지할지 또는 재개할지 여부를 동적으로 결정하고 범주별 임계값을 조정합니다. AM 방법의 동적 특성은 지속적으로 변화하는 분포의 영향을 해결하는 데 더 적합합니다.
ARR 메커니즘은 매개변수의 기울기를 랜덤 마스크 행렬의 가중치로 사용하여 비활성 매개변수를 활성 매개변수보다 더 높은 확률로 재설정하도록 제안되었습니다. ARR은 망각을 방지하는 데 도움이 될 뿐만 아니라 중요한 정보를 보존합니다. 반면에 임의성을 통해 특정 잘못 활성화된 매개변수도 재설정할 수 있으므로 적응의 안정성이 향상됩니다. ARR은 Fisher 정보 행렬(FIM)을 활용하여 매개변수 중요도를 추정하고 비활성 매개변수를 더 높은 확률로 재설정하여 소스 지식을 잊지 않으면서도 현재 도메인과 관련된 중요한 정보를 유지합니다.
저자들은 합성 및 실제 분포 변화와 관련된 단기 및 장기 적응을 포함하여 CTTA 객체 감지를 위한 4가지 벤치마크 작업(Cityscapes, Cityscapes-C, SHIFT, ACDC)에서 제안된 방법의 효과를 입증합니다. 실험 결과는 AMROD가 기존 방법보다 성능이 크게 향상되었으며 최대 3.2 mAP 향상과 계산 효율성이 20% 향상되었음을 보여줍니다. 특히 AMROD는 장기 적응에서 안정적인 성능을 유지하는 동시에 계산 효율성을 크게 향상시킵니다.
본 논문에서는 CTTA에서 객체 감지를 위한 새로운 접근 방식인 AMROD를 소개했습니다. AMROD는 객체 수준 대조 학습을 활용하여 특징 표현을 개선하고, 적응형 모니터링을 통해 효율성과 의사 레이블 품질을 높이고, 적응형 무작위 복원을 통해 중요한 지식을 유지하면서 망각을 완화합니다. 4가지 CTTA 벤치마크 작업에 대한 광범위한 실험을 통해 단기 및 장기 적응 모두에서 AMROD의 효율성과 효과가 입증되었습니다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询