Conceitos essenciais
적대적 피드백에 강건한 RCDB 알고리즘을 제안하였으며, 이는 최적에 가까운 성능을 달성한다.
Resumo
이 논문은 적대적 피드백이 존재하는 문맥 듀얼 밴딧 문제를 다룬다. 저자들은 불확실성 가중치를 사용한 최대 우도 추정기 기반의 RCDB 알고리즘을 제안하였다.
주요 내용은 다음과 같다:
- RCDB 알고리즘은 불확실성 가중치를 사용하여 적대적 피드백의 영향을 줄인다. 이를 통해 최적에 가까운 regret bound를 달성한다.
- 이론적으로 RCDB의 regret bound는 적대적 피드백 횟수 C에 선형적으로 의존하며, 이는 최적임을 보였다.
- 실험 결과 RCDB는 다양한 적대적 공격에 대해 강건한 성능을 보였다.
Estatísticas
알고리즘의 regret bound는 d√T + dC 의 형태를 가진다.
여기서 d는 문맥의 차원, T는 총 라운드 수, C는 적대적 피드백의 총 횟수이다.
Citações
"Learning from human feedback plays an important role in aligning generative models, such as large language models (LLM). However, the effectiveness of this approach can be influenced by adversaries, who may intentionally provide misleading preferences to manipulate the output in an undesirable or harmful direction."
"To tackle this challenge, we study a specific model within this problem domain–contextual dueling bandits with adversarial feedback, where the true preference label can be flipped by an adversary."