AdvisorQA는 개인적이고 주관적인 문제에 대한 조언을 제공하는 질문 답변 시스템을 위한 벤치마크 데이터셋이다. 이 데이터셋은 Reddit의 LifeProTips 포럼에서 수집된 10,350개의 질문과 각 질문에 대한 평균 8.9개의 답변으로 구성되어 있다. 답변은 사용자들의 투표를 통해 순위가 매겨지는데, 이는 집단 지성을 반영한다.
AdvisorQA의 특징은 다음과 같다:
AdvisorQA는 유용성과 안전성이라는 두 가지 측면에서 답변을 평가한다. 유용성 평가를 위해 Plackett-Luce 모델을 사용하며, 안전성 평가를 위해 LifeTox 모더레이터를 활용한다. 실험 결과, 대규모 언어 모델들은 유용성과 안전성 사이의 균형을 잡는 데 어려움을 겪는 것으로 나타났다. 이를 통해 주관적인 조언 제공을 위한 평가 지표와 훈련 방법의 필요성이 강조되었다.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések