이 논문에서는 영향력 함수를 활용하여 모델 성능을 향상시키고 데이터셋 확장 시 수작업 주석 비용을 크게 줄이는 방법을 제안한다.
먼저, 영향력 함수를 활용하여 모델의 예측에 가장 큰 영향을 미치는 훈련 데이터 포인트를 식별한다. 이를 바탕으로 타깃 데이터 포인트의 라벨을 영향력이 큰 데이터 포인트의 라벨을 기반으로 조정한다. 이를 통해 기존 최신 모델 대비 최대 4%의 성능 향상을 달성했다.
다음으로, 데이터셋 확장 시 영향력 함수를 활용하여 수작업 주석이 필요한 데이터 포인트를 자동으로 식별한다. 실험 결과, 전체 확장 데이터셋의 약 1/1000 크기의 데이터 포인트만 수작업 주석하더라도 전체 데이터셋을 수작업 주석한 경우와 유사한 성능을 달성할 수 있었다.
이를 통해 영향력 함수가 주관적 작업에서 모델 성능 향상과 데이터셋 확장 비용 절감에 효과적으로 활용될 수 있음을 보였다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問