핵심 개념
대규모 언어 모델의 도입으로 인해 정보 검색 시스템에서 새로운 편향성과 불공정성 문제가 대두되고 있으며, 이를 해결하기 위한 다양한 전략이 필요하다.
초록
이 논문은 대규모 언어 모델(LLM)이 정보 검색(IR) 시스템에 통합되면서 발생하는 편향성과 불공정성 문제를 종합적으로 다루고 있다.
먼저 편향성과 불공정성 문제를 분포 불일치 문제로 통합하여 정의하고, 이를 해결하기 위한 데이터 샘플링과 분포 재구성 전략을 제시한다.
이후 데이터 수집, 모델 개발, 결과 평가의 3단계에서 발생하는 다양한 편향성과 불공정성 문제를 상세히 분석하고, 각각의 문제에 대한 완화 방안을 소개한다.
마지막으로 향후 과제와 도전과제를 제시하며, 정보 검색 분야와 그 외 분야에서 편향성과 불공정성 문제를 더 잘 이해하고 해결하기 위한 방향을 제시한다.
통계
LLM 기반 정보 검색 모델은 사용자 입력 순서에 따라 결과를 선호하는 경향이 있다.
LLM 기반 정보 검색 모델은 인기 있는 항목을 우선적으로 추천하는 경향이 있다.
LLM은 사실적 오류를 포함한 내용을 생성할 수 있어, 정보 검색 시스템의 신뢰성을 저하시킬 수 있다.
인용구
"LLM-based IR models often show a preference for content positioned at the beginning or end of a list, neglecting the contributions of items in the middle."
"LLMs frequently exhibit certain group behavior towards certain human groups."
"Achieving item fairness necessitates tracing this credit back to the item provider for a comprehensive assessment."