Core Concepts
S3LLM은 소스 코드, 메타데이터, 문서 정보를 통합적으로 활용하여 대규모 과학 소프트웨어를 사용자 친화적인 방식으로 이해할 수 있게 해주는 LLM 기반 프레임워크이다.
Abstract
S3LLM은 대규모 과학 소프트웨어 이해를 위한 혁신적인 LLM 기반 프레임워크이다. 이 프레임워크는 소스 코드, 메타데이터, 기술 문서 등 다양한 데이터 유형을 통합적으로 활용하여 사용자가 자연어로 쿼리하고 상호작용할 수 있게 한다.
소스 코드 분석 부분에서는 FQL(Feature Query Language)을 활용하여 라이브러리 사용, 버전 정보, 병렬 프로그래밍 기능 등을 효과적으로 탐색할 수 있다. 메타데이터 처리 부분에서는 DOT, SQL, 사용자 정의 형식 등 다양한 메타데이터 유형을 지원하며, RAG(Retrieval Augmented Generation) 기술을 활용하여 문서 내용을 심도 있게 이해할 수 있다.
S3LLM은 대규모 과학 소프트웨어 이해에 필요한 전문 지식 없이도 사용자가 자연어로 쿼리할 수 있게 하여 접근성과 효율성을 높였다. 또한 LLaMA-2 모델을 기반으로 하여 다양한 계산 환경에서 활용할 수 있다는 장점이 있다.
실험 결과, S3LLM은 E3SM(Energy Exascale Earth System Model)을 대상으로 소스 코드, 메타데이터, 기술 문서 등을 효과적으로 분석할 수 있음을 보여주었다. 이를 통해 S3LLM이 대규모 과학 소프트웨어 이해를 위한 강력한 도구로 활용될 수 있음을 확인하였다.
Stats
FQL 쿼리를 통해 E3SM 코드에서 OpenMP가 사용되고 있음을 확인할 수 있다.
FQL 쿼리를 통해 E3SM 코드에서 최소 MPI 버전 3.1이 사용되고 있음을 확인할 수 있다.
FQL 쿼리를 통해 E3SM 코드에서 사용되는 OpenMP 스케줄링 방식(Static, Dynamic, Guided, Auto, Runtime)을 확인할 수 있다.