Keskeiset käsitteet
본 논문에서는 미군의 특수한 요구사항에 맞춰 미세 조정된 대형 언어 모델(LLM)인 TRACLM과 이를 평가하기 위해 개발된 MilBench 프레임워크를 소개합니다.
Tiivistelmä
오픈 소스 대형 언어 모델의 군사 분야 활용을 위한 미세 조정 및 평가: TRACLM 및 MilBench 개발
본 연구는 공개적으로 사용 가능한 대형 언어 모델(LLM)을 미세 조정하여 미 육군 분야에서 활용 가능성을 탐구하고, 이러한 모델의 군사 지식을 객관적으로 평가할 수 있는 프레임워크를 개발하는 것을 목표로 합니다.
TRACLM 개발
데이터 수집 및 전처리: 미 육군 출판국(APD) 웹사이트에서 4,300개 이상의 군사 교범 및 관련 문서를 수집하여 8천만 개 이상의 토큰으로 구성된 군사 분야 특화 말뭉치를 구축했습니다. 이후 불필요한 정보를 제거하고 모델 학습에 적합하도록 데이터를 정제하는 과정을 거쳤습니다.
미세 조정: 세 가지 버전의 TRACLM(v1, v2, v3)을 개발하면서 각 버전별로 성능 향상을 위해 데이터 전처리, 기본 모델, 학습 파이프라인을 조정했습니다.
TRACLM-v1: RedPajama-INCITE-Base-3B-v1 모델을 기반으로 최소한의 데이터 전처리 후 미세 조정을 수행했습니다.
TRACLM-v2: Llama-2-7b 모델을 기반으로 데이터 전처리를 강화하고, Alpaca 데이터셋을 활용한 추가적인 명령어 조정 단계를 포함했습니다.
TRACLM-v3: Mistral-7B-v0.1 모델을 기반으로 APD 말뭉치를 질문-답변 쌍으로 변환하여 더욱 풍부하고 군사 분야에 특화된 명령어 조정을 수행했습니다.
MilBench 개발
평가 데이터셋 구축: 군사 분야 LLM 성능 평가를 위해 MilGLUE 데이터셋에서 파생된 4가지 작업(Masked Reasoning, Next-Sentence Reasoning, Paraphrase, Sentence Similarity Binary)과 육군 장교 시험 문제를 기반으로 한 CATB(Combined Army Test Bank) 작업을 포함한 MilBench 데이터셋을 구축했습니다.
평가 하네스(MEH) 개발: HuggingFace TGI 서버 또는 OpenAI 호환 API에서 호스팅되는 LLM을 평가하기 위한 모듈식 평가 프레임워크인 MEH를 개발했습니다. MEH는 사용자가 정의한 작업 세트를 관리하고 여러 모델을 동시에 평가할 수 있도록 설계되었습니다.
MilBench 서버 개발: MEH를 감싸는 웹 API인 MilBench 서버를 통해 원격 컴퓨터에서 평가를 시작하고 결과를 추적, 비교 및 감사할 수 있도록 지원합니다. 또한, 사용자 친화적인 웹 인터페이스를 통해 평가 시작, 모니터링, 리더보드 시각화, 모델 간 성능 비교, 채팅 대화를 통한 주관적 평가 등의 기능을 제공합니다.