이 논문은 배포된 모델의 편향성 문제를 해결하기 위한 방법을 제안한다. 기존의 공정성 향상 방법들은 모델 재학습을 필요로 하지만, 실제 배포된 모델의 매개변수에 접근할 수 없는 경우가 많다. 이 논문에서는 모델 출력에 대한 베이지안 분석을 통해 편향된 규칙을 제거할 수 있음을 보였다. 이를 바탕으로 추론 시간 규칙 제거기(Inference-Time Rule Eraser)를 제안했다. 추론 시간 규칙 제거기는 모델 출력에서 편향된 규칙의 영향을 제거하여 공정한 예측을 생성한다. 또한 규칙 증류 학습 기법을 통해 편향된 규칙을 추출하고 이를 패치 모델에 저장하여 추론 시 활용할 수 있도록 하였다. 실험 결과, 추론 시간 규칙 제거기가 기존 공정성 향상 방법들보다 우수한 성능을 보였다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yi Zhang,Jit... at arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.04814.pdfDeeper Inquiries