핵심 개념
본 연구는 HPV 백신 관련 트윗을 대상으로 대규모 언어 모델(LLM)을 활용하여 문맥 내 학습(in-context learning) 및 파인 튜닝(fine-tuning) 기법을 통해 입장 분류 작업의 성능을 비교 분석하고, 소셜 미디어 콘텐츠 분석 연구에 LLM 적용 가능성과 효율적인 활용 방안을 제시한다.
초록
대규모 언어 모델을 사용한 HPV 백신에 대한 소셜 미디어 게시글의 입장 분류: 문맥 내 학습 및 파인 튜닝을 통한 여러 모델에서의 입장 탐지 성능 비교 평가
본 연구는 HPV 백신 관련 트윗 데이터를 활용하여 대규모 언어 모델(LLM)의 입장 분류 성능을 문맥 내 학습과 파인 튜닝 기법을 비교하여 평가하고, 소셜 미디어 콘텐츠 분석에 LLM을 효과적으로 활용하기 위한 최적의 전략을 제시하는 것을 목표로 한다.
데이터 수집 및 전처리
소셜 리스닝 플랫폼인 Synthesio를 통해 2023년 1월 1일부터 2023년 6월 28일까지 HPV 백신 관련 검색어를 사용하여 트위터 데이터(N = 313,900)를 수집하였다.
수집된 데이터에서 연구진은 무작위 표본 추출(n = 1,050)을 통해 HPV 백신에 대한 입장("찬성", "반대" 또는 "중립/불분명")을 나타내는 트윗 데이터셋을 구축하였다.
세 명의 연구자가 입장 주석에 대해 만장일치로 동의한 756개의 트윗(찬성 367개, 반대 327개, 중립/불분명 62개)을 최종 데이터셋으로 사용하였다.
LLM 및 실험 설계
본 연구에서는 GPT-4, Mistral, Llama 3, Flan-UL2 등 널리 사용되는 4가지 LLM과 그 변형 모델을 사용하였다.
문맥 내 학습을 위해 프롬프트 템플릿 복잡도(기본 프롬프트 vs 상세 프롬프트), 샷 샘플링 방법(무작위 vs 계층적), 샷 수량(0에서 30까지 3씩 증가)의 세 가지 차원을 조작하여 실험을 설계하였다.
각 테스트 트윗에 대해 40개의 퓨샷 프롬프트와 2개의 제로샷 프롬프트를 생성하여 총 15,876개의 고유한 프롬프트 데이터셋을 구축하였다.
파인 튜닝
파인 튜닝 모델링에는 LoRA(Low-Rank Adaptation)라는 PEFT(Parameter-Efficient Fine-Tuning) 기법을 사용하였다.
문맥 내 학습 기반 입장 탐지에서 평가된 모든 LLM 제품군 중에서 가장 성능이 뛰어난 모델 세 가지(Flan-UL2, Meta-Llama-3-70B-Instruct, Mixtral-8x7B-Instruct-v0.1)를 선택하여 LoRA로 파인 튜닝하였다.
성능 평가
각 LLM 구성에 대한 입장 분류 성능을 평가하기 위해 매크로 F1 점수를 사용하였다.