핵심 개념
LLooM은 대규모 언어 모델을 활용하여 텍스트 데이터에서 사람이 이해할 수 있는 고수준 개념을 반복적으로 합성하고 적용할 수 있습니다.
초록
이 논문은 LLooM이라는 개념 유도 알고리즘을 소개합니다. LLooM은 대규모 언어 모델을 활용하여 텍스트 데이터에서 고수준 개념을 추출합니다. 고수준 개념은 명시적인 포함 기준을 가진 사람이 이해할 수 있는 설명으로 정의됩니다.
LLooM 알고리즘은 다음과 같은 단계로 구성됩니다:
Distill: 텍스트 데이터를 요약하고 압축하여 언어 모델의 문맥 윈도우 내에 포함될 수 있도록 합니다.
Cluster: 유사한 텍스트 조각을 그룹화합니다.
Synthesize: 언어 모델을 활용하여 그룹화된 텍스트 조각에서 고수준 개념을 합성합니다. 개념은 자연어 설명과 명시적인 포함 기준으로 구성됩니다.
Score: 합성된 개념을 활용하여 전체 데이터셋에 대한 개념 점수를 계산합니다.
Loop: 점수가 낮은 데이터 예시를 다시 입력하여 추가적인 개념을 생성합니다.
LLooM은 LLooM Workbench라는 텍스트 분석 도구에 구현되어, 분석가가 데이터를 고수준 개념으로 시각화하고 상호작용할 수 있도록 합니다. 4가지 분석 시나리오와 기술적 평가, 전문가 사례 연구를 통해 LLooM이 기존 토픽 모델링 기법에 비해 개념의 질과 데이터 커버리지 면에서 우수한 성능을 보임을 확인했습니다.
통계
"LLooM은 BERTopic 모델에 비해 평균 2.0배 더 많은 고품질 토픽을 제공합니다."
"LLooM 개념은 평균 93%의 데이터 예시를 커버하지만, 클러스터 기반 토픽 모델은 평균 77.7%의 데이터만 분류할 수 있습니다."
인용구
"LLooM은 대규모 언어 모델을 활용하여 텍스트 데이터에서 사람이 이해할 수 있는 고수준 개념을 반복적으로 합성하고 적용할 수 있습니다."
"LLooM은 데이터를 고수준 개념으로 시각화하고 상호작용할 수 있는 LLooM Workbench라는 텍스트 분석 도구에 구현되어 있습니다."