Conceptos Básicos
대형 언어 모델과 검색 보강 기술을 활용하여 자연어 요구사항에서 자동으로 테스트 시나리오를 생성하는 접근법을 제안하고 산업 프로젝트에 적용하여 평가한다.
Resumen
이 연구는 대형 언어 모델(LLM)과 검색 보강 생성(RAG) 기술을 활용하여 자연어 요구사항에서 자동으로 테스트 시나리오를 생성하는 RAGTAG 접근법을 제안한다. RAGTAG는 LLM의 생성 능력과 RAG의 도메인 지식 통합을 활용하여 정확하고 관련성 있는 테스트 시나리오를 생성한다.
연구팀은 오스트리아 우편 그룹 IT와 긴밀히 협력하여 RAGTAG를 두 개의 실제 산업 프로젝트에 적용하고 평가했다. 결과적으로 RAGTAG는 전반적으로 만족스러운 수준의 관련성, 포괄성, 정확성, 일관성 및 실행 가능성을 보여주었다. 전문가들은 RAGTAG가 테스트 시나리오 명세 작업의 효율성을 높이고 요구사항의 품질 문제를 강조하는 데 도움이 될 것으로 평가했다. 그러나 정확한 행동 순서 및 도메인 세부사항 캡처에는 여전히 격차가 있어 도메인 전문성이 필요하다는 점이 강조되었다.
Estadísticas
오스트리아 우편 그룹 IT에서 두 개의 실제 산업 프로젝트(ProjA와 ProjB)에 RAGTAG를 적용하고 평가했다.
ProjA에서 75개의 요구사항과 16개의 상세 테스트 시나리오를, ProjB에서 41개의 요구사항과 15개의 테스트 설명을 수집했다.
4명의 전문가가 ProjA와 ProjB에서 생성된 총 30개의 테스트 시나리오를 5가지 기준(관련성, 포괄성, 정확성, 일관성, 실행 가능성)으로 평가했다.
Citas
"Maybe I would recommend making a dictionary of terms that should not be translated other way than specified, and have that dictionary as a source for an LLM."
"if LLM gets input data which is low quality or too ambiguous, it will also have such output."
"Based on my observations, it [the approach] can perform better in creation of TS if it would have access to the architecture schema of the used systems/applications."
"More experienced testers understand or refine the LLM generated scenarios much easier."
"It [The approach] is missing feedback loop. Some scenarios can be easily fixed."
"It seems like a useful tool, and much better than writing test scenarios manually. They require minor adjustments but that is much easier than writing it from scratch."
"As we noted, some of the scenarios were completely off. Such cases are inevitable but are very easy to write off by just looking at them. Hence, the technology is worth it."
"Can we use this for our actual project next week?"