AdvisorQA는 개인적이고 주관적인 문제에 대한 조언을 제공하는 질문 답변 시스템을 위한 벤치마크 데이터셋이다. 이 데이터셋은 Reddit의 LifeProTips 포럼에서 수집된 10,350개의 질문과 각 질문에 대한 평균 8.9개의 답변으로 구성되어 있다. 답변은 사용자들의 투표를 통해 순위가 매겨지는데, 이는 집단 지성을 반영한다.
AdvisorQA의 특징은 다음과 같다:
AdvisorQA는 유용성과 안전성이라는 두 가지 측면에서 답변을 평가한다. 유용성 평가를 위해 Plackett-Luce 모델을 사용하며, 안전성 평가를 위해 LifeTox 모더레이터를 활용한다. 실험 결과, 대규모 언어 모델들은 유용성과 안전성 사이의 균형을 잡는 데 어려움을 겪는 것으로 나타났다. 이를 통해 주관적인 조언 제공을 위한 평가 지표와 훈련 방법의 필요성이 강조되었다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Minbeom Kim,... at arxiv.org 04-19-2024
https://arxiv.org/pdf/2404.11826.pdfDeeper Inquiries