מושגי ליבה
모바일 기기에서 대형 언어 모델을 실행하여 자연어 처리 기능을 제공하고, 특히 질문 답변 기능을 구현할 수 있다.
תקציר
이 논문은 모바일 기기에서 대형 언어 모델(LLM)을 실행하는 방법을 소개한다. LLM은 자연어 처리 기능을 제공하며, 질문 답변이 중요한 활용 사례 중 하나이다. 일반적으로 LLM 질의는 클라우드에서 처리되어 결과가 모바일 기기로 전송되지만, 제한된 연결성이나 감시 등의 이유로 이것이 불가능한 경우도 있다.
이를 위해 저자들은 llama.cpp 프레임워크를 사용하여 LLM을 모바일 기기에 직접 구현하였다. llama.cpp는 C++로 작성된 유연하고 자체 포함된 프레임워크로, CPU 또는 GPU/CUDA에서 LLM 추론을 수행할 수 있다. 저자들은 Android용 Termux 앱을 사용하여 필요한 도구들을 설치하고 llama.cpp 바이너리를 빌드하였다.
실험에서는 Orca-Mini-3B 모델을 사용하였는데, 이 모델은 3억 개의 매개변수를 가지며 5.6비트 양자화된 버전을 사용하였다. 이 모델은 삼성 갤럭시 S21 스마트폰에서 대화형 속도로 실행되었고, 정치, 지리, 역사 등 다양한 주제의 질문에 대해 정확하고 충실한 답변을 제공하였다.
향후에는 최근 소개된 LLM 모델인 phi-2와 OpenCL 또는 Vulkan을 통한 GPU 가속 기능을 탐구할 계획이다.
סטטיסטיקה
모바일 기기에서 LLM 추론이 대화형 속도로 실행됨
Orca-Mini-3B 모델은 3억 개의 매개변수를 가지며 5.6비트 양자화됨
ציטוטים
"모바일 기기에서 LLM 추론을 네이티브로 실행하여 자연어 처리 기능을 제공할 수 있다."
"실험 결과, LLM 모델이 다양한 주제의 질문에 대해 정확하고 충실한 답변을 제공한다."