Conceptos Básicos
본 논문에서는 사회 관계 네트워크 그래프를 기반으로 대규모 언어 모델(LLM)의 추론 능력과 메모리 능력을 평가하는 RoCar라는 새로운 방법론을 제안합니다.
Resumen
RoCar: 관계 네트워크 기반 대규모 언어 모델 평가 방법론
본 연구 논문에서는 대규모 언어 모델(LLM)의 추론 능력과 메모리 능력을 평가하기 위해 고안된 RoCar라는 새로운 방법론을 소개합니다. RoCar는 사회 관계 네트워크 그래프를 활용하여 LLM의 능력을 평가하는 공정하고 효율적인 방법을 제공합니다.
기존 LLM 평가 방법은 특정 주제나 데이터 세트에 의존하여 모델 학습 데이터 편향으로 인해 평가의 공정성이 저해될 수 있다는 한계점을 가지고 있습니다. 본 연구는 이러한 한계점을 극복하고 LLM의 추론 및 메모리 능력을 공정하게 평가할 수 있는 새로운 방법론을 제시하는 것을 목표로 합니다.
RoCar는 세 가지 주요 단계로 구성됩니다.
기본 그래프 스키마 추출: 먼저, 다양한 사회 관계 유형(예: 아버지, 어머니, 친구, 동료 등)과 각 관계 유형에 해당하는 정보(예: 성별, 순서, 방향)를 포함하는 기본 그래프 스키마를 정의합니다.
작업 그래프 생성: 추출된 기본 스키마를 기반으로 무작위로 작업 그래프를 생성합니다. 이때, 그래프의 노드는 개인을 나타내고, 엣지는 개인 간의 관계를 나타냅니다.
평가 작업 구성: 생성된 작업 그래프를 자연어 프롬프트 및 질문으로 변환합니다. 예를 들어, "철수는 영희의 아버지입니다."와 같은 프롬프트를 통해 LLM이 관계를 이해하는지 평가합니다.