Core Concepts
다양한 문화권의 상식 지식을 효과적으로 추출하고 통합하는 방법론을 제시한다.
Abstract
이 논문은 대규모 언어 모델(LLM)을 활용하여 문화 특화 상식 지식(CCSK)을 효과적으로 추출하고 통합하는 MANGO 방법론을 제안한다.
첫 단계에서는 개념과 문화권을 각각 입력으로 하여 LLM에게 CCSK 어서션을 생성하도록 한다. 이를 통해 다양한 개념과 문화권에 대한 CCSK 어서션을 대량으로 확보할 수 있다.
두 번째 단계에서는 생성된 CCSK 어서션을 클러스터링하고 대표 문장을 생성하여 정제한다. 이를 통해 중복성을 줄이고 정확성과 정보성을 높인다.
MANGO 방법론을 GPT-3.5에 적용하여 11,000개 문화권, 30,000개 개념에 대한 167,000개 CCSK 어서션을 생성했다. 이는 기존 자원들을 크게 능가하는 규모와 품질이다.
대화 시스템에 MANGO CCSK 어서션을 적용한 실험에서도 응답의 문화적 민감성과 구체성이 크게 향상되었다.
Stats
문화 특화 상식 지식 167,000개 어서션 생성
11,000개 문화권, 30,000개 개념 포함
Quotes
"LLM 훈련 데이터에는 스팸과 공격적인 콘텐츠를 제거하려는 노력이 있었다는 점에서 웹 크롤링보다 유리하다."
"문화권과 개념을 각각 입력으로 하여 CCSK 어서션을 생성하면 의미 없는 조합을 줄일 수 있다."
"클러스터링과 요약을 통해 중복성을 줄이고 정확성과 정보성을 높일 수 있다."