이 연구는 온라인 정치 토론에서의 입장 탐지 문제를 다룬다. 입장 탐지는 많은 응용 분야에서 중요한 작업이지만, 대량의 레이블링된 데이터가 필요하다는 문제가 있다.
이 연구에서는 두 가지 방법을 제안한다:
합성 데이터를 활용한 미세 조정: 기존 데이터에 합성 데이터를 추가하여 입장 탐지 모델을 미세 조정하면 성능이 향상된다. 이를 통해 특정 질문에 대한 모델의 성능을 높일 수 있다.
합성 데이터 기반 능동 학습(SQBC): 합성 데이터를 오라클로 활용하여 가장 정보가 많은 레이블링되지 않은 샘플을 선택하는 새로운 능동 학습 방법을 제안한다. 이를 통해 수작업 레이블링 노력을 크게 줄이면서도 우수한 성능을 달성할 수 있다.
실험 결과, 두 가지 방법 모두 입장 탐지 성능을 향상시킬 수 있었다. 특히 SQBC를 통해 전체 데이터의 20% 만을 레이블링하면서도 기존 모델보다 우수한 성능을 달성할 수 있었다. 또한 모든 능동 학습 방법에 합성 데이터를 활용하는 것이 성능 향상에 필수적이었다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Stefan Sylvi... lúc arxiv.org 04-15-2024
https://arxiv.org/pdf/2404.08078.pdfYêu cầu sâu hơn