Keskeiset käsitteet
본 논문에서는 클래스 불균형 텍스트 분류 문제를 해결하기 위해 클래스 인식 대조적 손실 함수(CAROL)를 사용한 새로운 오토인코더 기반 접근 방식을 제안합니다.
Tiivistelmä
클래스 불균형 텍스트 분류를 위한 클래스 인식 대조적 최적화 연구 논문 요약
참고문헌: Grigorii Khvatskii, Nuno Moniz, Khoa Doan, and Nitesh V Chawla. 2018. Class-Aware Contrastive Optimization for Imbalanced Text Classification. In Proceedings of 8th Joint International Conference on Data Sciences and Management of Data (CODS-COMAD Dec’24). ACM, New York, NY, USA, 10 pages. https://doi.org/XXXXXXX.XXXXXXX
본 연구는 클래스 불균형 텍스트 분류 문제를 해결하기 위해, 클래스 정보를 활용하여 클래스 간 분리를 높이는 동시에 문장의 의미적 가치를 유지하는 새로운 오토인코더 기반 접근 방식을 제안합니다.
클래스 인식 대조적 손실 함수 (CAROL)
본 연구에서는 클래스 분리 기반 손실 함수와 오토인코더 기반 모델을 결합한 클래스 인식 대조적 손실 함수(CAROL)를 제안합니다.
CAROL의 구성 요소
클래스 간 거리 (Interclass Distance): 서로 다른 클래스에 속한 인스턴스 쌍 간의 평균 거리를 나타냅니다.
클래스 내 거리 (Intraclass Distance): 동일한 클래스에 속한 인스턴스 쌍 간의 평균 거리를 나타냅니다.
클래스 분리 (Class Separation): 클래스 간 거리를 최대화하고 클래스 내 거리를 최소화하여 클래스 간 분리를 극대화하는 것을 목표로 합니다.
CAROL의 장점
효율적인 클래스 분리: 클래스 정보를 활용하여 클래스 간 분리를 높여 클래스 불균형 문제를 효과적으로 해결합니다.
의미적 가치 유지: 재구성 손실을 통해 문장의 의미적 가치를 유지하면서 클래스 분리를 수행합니다.
다양한 거리 척도 활용 가능: 유클리드 거리, 체비쇼프 거리, 코사인 거리 등 다양한 거리 척도를 사용하여 클래스 분리를 계산할 수 있습니다.
실험 환경
본 연구에서는 BERT 기반 오토인코더 모델을 사용하여 CAROL의 성능을 평가했습니다. 다양한 텍스트 데이터셋을 사용하여 실험을 진행했으며, F1 점수, 정밀도, 재현율을 성능 지표로 사용했습니다.