핵심 개념
MT-Bench-101은 대규모 언어 모델(LLM)의 다중 턴 대화 능력을 세분화하여 평가하기 위해 특별히 설계된 벤치마크로, LLM의 대화 능력을 다각적으로 분석하고 개선 방향을 제시합니다.
초록
MT-Bench-101: 대규모 언어 모델의 다중 턴 대화 능력 평가를 위한 세분화된 벤치마크
본 연구 논문에서는 대규모 언어 모델(LLM)의 다중 턴 대화 능력을 정확하고 세분화하여 평가하기 위해 특별히 고안된 새로운 벤치마크인 MT-Bench-101을 소개합니다. 기존 벤치마크는 단일 턴 대화에 주로 초점을 맞추거나 다중 턴 대화를 너무 포괄적으로 평가하여 실제 대화의 복잡성과 뉘앙스를 제대로 반영하지 못하는 한계가 있었습니다. 이러한 문제를 해결하기 위해 실제 다중 턴 대화 데이터와 교육 심리학의 이론적 틀을 결합하여 3단계 계층적 능력 분류 체계를 구축했습니다.
MT-Bench-101은 13가지 하위 과제로 세분화된 3가지 상위 능력(지각력, 적응력, 상호작용성)을 기반으로 LLM의 다중 턴 대화 능력을 평가합니다.
1. 지각력 (Perceptivity)
LLM이 이전 대화 내용을 정확하게 기억하고 이해하는 능력을 나타냅니다.
맥락 기억 (Context Memory): 과거 대화 정보를 정확하게 기억하고 현재 질문에 활용하는 능력
맥락 이해 (Context Understanding): 대화에서 사용된 대명사의 지시 대상을 정확하게 파악하고, 여러 턴에 걸쳐 주어진 지시문과 입력 정보 사이의 관계를 이해하는 능력
맥락 추론 (Context Interference): 사용자가 대화 주제를 바꿀 때 이를 인식하고 관련 없는 정보를 무시하며 새로운 주제에 집중하는 능력, 텍스트는 유사하지만 다른 의미를 가진 질문에 대해 혼동하지 않고 적절하게 답변하는 능력
2. 적응력 (Adaptability)
LLM이 사용자의 새로운 요구사항, 조건, 가정에 따라 이전 답변을 수정하고, 사용자의 피드백에 따라 답변을 수정하거나 고수하는 능력을 나타냅니다.
재구성 (Rephrasing): 사용자의 요구사항에 따라 이전 답변의 내용을 요약하거나 형식을 변경하는 능력
반성 (Reflection): 사용자의 피드백을 통해 오류를 인지하고 수정하거나, 부정확한 피드백에 대해서는 자신의 답변을 고수하는 능력
추론 (Reasoning): 사용자와의 상호작용을 통해 수학 문제를 풀거나 다양한 유형의 추론 문제를 해결하는 능력
3. 상호작용성 (Interactivity)
LLM이 사용자의 질문을 명확히 하기 위해 추가 질문을 하거나, 대화를 이어나가기 위해 적절한 후속 질문이나 의견을 제시하는 능력을 나타냅니다.
질문 (Questioning): 모호한 질문에 대해 명확한 답변을 얻기 위해 추가 질문을 하는 능력
능동적 상호작용 (Proactive Interaction): 사용자의 발언에 대해 적절한 후속 질문이나 의견을 제시하여 대화를 자연스럽게 이어나가는 능력