核心概念
본 논문은 대규모 언어 모델(LLM)을 활용하여 기술 시스템 사양이 요구사항을 충족하는지 여부를 검증하는 방법을 제안하고, 그 성능을 규칙 기반 시스템과 비교 분석하여 LLM의 활용 가능성을 탐구합니다.
要約
대규모 언어 모델 기반 요구사항 검증 연구 분석
본 논문은 대규모 언어 모델(LLM)을 활용하여 기술 시스템 사양이 주어진 요구사항을 충족하는지 여부를 자동으로 검증하는 방법을 제안하고, 그 효과성을 실험적으로 검증합니다.
기존의 요구사항 검증 방식은 주로 규칙 기반 시스템에 의존해왔으나, 이는 전문 지식이 필요하며 구축 및 유지보수에 많은 노력이 요구된다는 단점이 존재했습니다.
최근 자연어 처리 분야에서 괄목할 만한 성과를 보이는 LLM은 풍부한 사전 학습 정보를 바탕으로 텍스트 기반 요구사항 분석 및 검증에 새로운 가능성을 제시합니다.
본 연구는 LLM을 활용하여 시스템 사양과 요구사항 간의 일치 여부를 판단하는 작업의 정확도를 규칙 기반 시스템과 비교 분석하여 LLM의 활용 가능성을 탐구합니다.
실험 환경 구축: 스마트 그리드 도메인을 선택하여 시스템 사양 및 요구사항 데이터셋을 구축했습니다. 시스템 사양은 에너지 소비 일정 최적화 워크플로우를 텍스트 형식으로 기술하고, 요구사항은 워크플로우 구조 및 구성 요소에 대한 제약 조건을 명시합니다.
규칙 기반 시스템을 이용한 검증: 시스템 사양을 SysML 다이어그램으로 모델링하고, 요구사항을 OCL 제약 조건으로 변환하여 CATIA Magic Systems of Systems Architect (MSOSA) 도구를 활용하여 검증을 수행했습니다. 이를 통해 LLM 기반 검증 결과와 비교 분석하기 위한 기준을 마련했습니다.
LLM 기반 검증: GPT-4o, GPT-3.5-turbo, Gemini-1.5, Claude 3.5 Sonnet 등 4가지 LLM을 사용하여 시스템 사양과 요구사항을 입력받아 요구사항 충족 여부를 판단하도록 했습니다. 다양한 프롬프트 엔지니어링 기법(기본, COT, Few-shot)을 적용하여 성능을 비교 분석했습니다.
성능 평가 지표: 정밀도, 재현율, F1 점수를 사용하여 LLM 기반 검증 결과를 규칙 기반 시스템과 비교하여 성능을 평가했습니다.