Alapfogalmak
대규모 언어 모델(LLM)의 아키텍처가 수렴되고 있으며, 특히 서버 및 엣지 환경에서 하이퍼파라미터 설정에 따라 성능이 달라지는 경향을 보인다.
김성호, 문지현, 오준택, 최인수, 양준성. (2024). 연산 단계 기반 대규모 언어 모델(LLM)의 아키텍처 수렴 현황 및 성능 평가. arXiv preprint arXiv:2410.11381v1.
본 연구는 최근 자연어 처리 분야에서 주목받는 대규모 언어 모델(LLM)의 아키텍처 수렴 현상을 분석하고, 다양한 하이퍼파라미터 설정에 따른 성능 변화를 실험적으로 비교 분석하는 것을 목표로 한다.