Khái niệm cốt lõi
본 논문에서는 미군의 특수한 요구사항에 맞춰 미세 조정된 대형 언어 모델(LLM)인 TRACLM과 이를 평가하기 위해 개발된 MilBench 프레임워크를 소개합니다.
Tóm tắt
오픈 소스 대형 언어 모델의 군사 분야 활용을 위한 미세 조정 및 평가: TRACLM 및 MilBench 개발
본 연구는 공개적으로 사용 가능한 대형 언어 모델(LLM)을 미세 조정하여 미 육군 분야에서 활용 가능성을 탐구하고, 이러한 모델의 군사 지식을 객관적으로 평가할 수 있는 프레임워크를 개발하는 것을 목표로 합니다.
TRACLM 개발
데이터 수집 및 전처리: 미 육군 출판국(APD) 웹사이트에서 4,300개 이상의 군사 교범 및 관련 문서를 수집하여 8천만 개 이상의 토큰으로 구성된 군사 분야 특화 말뭉치를 구축했습니다. 이후 불필요한 정보를 제거하고 모델 학습에 적합하도록 데이터를 정제하는 과정을 거쳤습니다.
미세 조정: 세 가지 버전의 TRACLM(v1, v2, v3)을 개발하면서 각 버전별로 성능 향상을 위해 데이터 전처리, 기본 모델, 학습 파이프라인을 조정했습니다.
TRACLM-v1: RedPajama-INCITE-Base-3B-v1 모델을 기반으로 최소한의 데이터 전처리 후 미세 조정을 수행했습니다.
TRACLM-v2: Llama-2-7b 모델을 기반으로 데이터 전처리를 강화하고, Alpaca 데이터셋을 활용한 추가적인 명령어 조정 단계를 포함했습니다.
TRACLM-v3: Mistral-7B-v0.1 모델을 기반으로 APD 말뭉치를 질문-답변 쌍으로 변환하여 더욱 풍부하고 군사 분야에 특화된 명령어 조정을 수행했습니다.
MilBench 개발
평가 데이터셋 구축: 군사 분야 LLM 성능 평가를 위해 MilGLUE 데이터셋에서 파생된 4가지 작업(Masked Reasoning, Next-Sentence Reasoning, Paraphrase, Sentence Similarity Binary)과 육군 장교 시험 문제를 기반으로 한 CATB(Combined Army Test Bank) 작업을 포함한 MilBench 데이터셋을 구축했습니다.
평가 하네스(MEH) 개발: HuggingFace TGI 서버 또는 OpenAI 호환 API에서 호스팅되는 LLM을 평가하기 위한 모듈식 평가 프레임워크인 MEH를 개발했습니다. MEH는 사용자가 정의한 작업 세트를 관리하고 여러 모델을 동시에 평가할 수 있도록 설계되었습니다.
MilBench 서버 개발: MEH를 감싸는 웹 API인 MilBench 서버를 통해 원격 컴퓨터에서 평가를 시작하고 결과를 추적, 비교 및 감사할 수 있도록 지원합니다. 또한, 사용자 친화적인 웹 인터페이스를 통해 평가 시작, 모니터링, 리더보드 시각화, 모델 간 성능 비교, 채팅 대화를 통한 주관적 평가 등의 기능을 제공합니다.