核心概念
AdvisorQA는 개인화된 조언을 제공하기 위한 질문 답변 시스템으로, 집단 지성을 활용하여 다양한 관점의 조언을 평가하고 제공한다.
摘要
AdvisorQA는 개인적이고 주관적인 문제에 대한 조언을 제공하는 질문 답변 시스템을 위한 벤치마크 데이터셋이다. 이 데이터셋은 Reddit의 LifeProTips 포럼에서 수집된 10,350개의 질문과 각 질문에 대한 평균 8.9개의 답변으로 구성되어 있다. 답변은 사용자들의 투표를 통해 순위가 매겨지는데, 이는 집단 지성을 반영한다.
AdvisorQA의 특징은 다음과 같다:
- 질문이 매우 구체적이고 개인적인 경험을 바탕으로 하며, 평균 75.2개의 토큰으로 구성되어 있다.
- 답변은 다양한 관점을 제시하며, 상위 답변과 하위 답변 간 BLEU 점수 차이가 크다.
- 답변의 유용성은 투표 수로 평가되며, 이는 집단 지성을 반영한다.
AdvisorQA는 유용성과 안전성이라는 두 가지 측면에서 답변을 평가한다. 유용성 평가를 위해 Plackett-Luce 모델을 사용하며, 안전성 평가를 위해 LifeTox 모더레이터를 활용한다. 실험 결과, 대규모 언어 모델들은 유용성과 안전성 사이의 균형을 잡는 데 어려움을 겪는 것으로 나타났다. 이를 통해 주관적인 조언 제공을 위한 평가 지표와 훈련 방법의 필요성이 강조되었다.
統計資料
질문의 평균 토큰 수는 75.2개이다.
각 질문에 대한 평균 답변 수는 8.9개이다.
상위 답변은 평균 71.4개의 투표를 받았다.
전체 답변에 대한 평균 투표 수는 164.2개이다.
引述
"AdvisorQA는 개인화된 조언을 제공하기 위한 질문 답변 시스템으로, 집단 지성을 활용하여 다양한 관점의 조언을 평가하고 제공한다."
"질문이 매우 구체적이고 개인적인 경험을 바탕으로 하며, 답변은 다양한 관점을 제시한다."
"AdvisorQA는 유용성과 안전성이라는 두 가지 측면에서 답변을 평가한다."