Основные понятия
노이즈가 있는 텍스트 레이블을 효과적으로 정제하여 오픈 어휘 동작 인식 모델의 성능을 향상시킬 수 있다.
Аннотация
이 논문은 오픈 어휘 동작 인식(OVAR) 작업에서 사용자가 제공한 클래스 텍스트 레이블에 노이즈(철자 오류, 타이핑 실수 등)가 존재하는 문제를 다룹니다.
기존 OVAR 모델들은 이러한 노이즈를 고려하지 않아 실제 환경에서 성능이 크게 저하됩니다. 이를 해결하기 위해 저자들은 DENOISER 프레임워크를 제안합니다:
- 생성 부분: 노이즈가 있는 클래스 텍스트를 디코딩하여 정제하는 과정. 텍스트 후보 생성, 텍스트-비주얼 정보를 활용한 투표 등을 통해 최적의 후보를 선택합니다.
- 판별 부분: 정제된 텍스트 레이블을 사용하여 비주얼 샘플을 분류하는 OVAR 모델.
- 생성-판별 부분을 번갈아 최적화하여 점진적으로 성능을 향상시킵니다.
실험 결과, DENOISER는 다양한 노이즈 수준에서 기존 OVAR 모델들을 크게 개선하며, 정제된 텍스트 레이블의 정확도와 의미적 유사도도 높습니다.
Статистика
노이즈가 있는 텍스트 레이블에서 기존 OVAR 모델의 성능이 크게 저하됨
노이즈 수준이 증가할수록 성능 저하가 심각해짐
Цитаты
"노이즈가 있는 텍스트 레이블은 실제 환경에서 OVAR 모델의 실용성을 제한하는 핵심 문제이지만, 기존 연구에서 완전히 무시되어 왔다."
"우리의 DENOISER 프레임워크는 생성 부분과 판별 부분을 번갈아 최적화하여, 정제된 텍스트 레이블이 OVAR 모델의 성능을 높이고 그 결과가 다시 텍스트 정제에 도움을 주는 상호 보완적인 관계를 만든다."