المفاهيم الأساسية
샤크티는 VGQA와 같은 혁신적인 기술을 통해 제한된 리소스 환경에서도 고성능 자연어 처리를 가능하게 하는 효율적인 소형 언어 모델이다.
본 연구 논문에서는 스마트폰, 웨어러블, IoT 시스템과 같은 리소스 제약적인 환경에 특화된 고효율 소형 언어 모델(SLM)인 샤크티-LLM을 소개합니다. 샤크티는 25억 개의 매개변수와 4096 토큰의 문맥 길이를 가지며 실시간 애플리케이션에 중점을 둔 고성능 자연어 처리를 위해 설계되었습니다.
샤크티-LLM 아키텍처의 핵심
변수 그룹화 쿼리 주의(VGQA): 여러 쿼리가 주의 프로세스 중에 단일 키를 공유하도록 하여 메모리 사용량을 줄이고 추론 시간을 향상시킵니다.
사전 정규화 및 SwiGLU 활성화: 훈련 프로세스를 안정화하고 기울기 소실 또는 폭발과 같은 문제를 방지합니다.
회전식 위치 임베딩(RoPE): 메모리 사용량을 크게 늘리지 않고도 긴 텍스트 컨텍스트를 효율적으로 처리할 수 있습니다.
직접 선호도 최적화(DPO): 모델 출력을 인간의 선호도에 맞춰 컨텍스트와 윤리적으로 일치하는 응답을 생성합니다.
샤크티-LLM의 주요 장점
경량 아키텍처: 스마트폰, 웨어러블, IoT 기기 등 소형 기기에서 효율적인 작동이 가능합니다.
다국어 지원: 힌디어, 칸나다어, 텔루구어와 같은 저자원 언어에 대한 미세 조정을 통해 언어적 다양성이 높은 지역에 적합합니다.
산업별 맞춤형: 의료, 금융, 고객 서비스와 같이 특수 지식이 필요한 산업에서 실시간 상호 작용 및 정확하고 컨텍스트에 관련된 통찰력을 제공합니다.
벤치마크 결과
샤크티-LLM은 Mistral 7B, Phi-3 Mini-4k, Llama 3 8B와 같은 대규모 모델과 비교하여 여러 NLP 벤치마크에서 경쟁력 있는 성능을 보여줍니다. 특히 상식 추론 및 다중 작업 언어 이해에서 뛰어난 성능을 보여줍니다. 그러나 사실적 지식 검색 작업에서는 개선의 여지가 있습니다.
미래 발전 방향
멀티모달 통합: 텍스트, 이미지, 음성과 같은 여러 양식을 처리하도록 확장하여 실시간 비디오 캡션 및 이미지 처리와 같은 새로운 애플리케이션을 개발할 수 있습니다.
전문 분야에 대한 고급 미세 조정: 법률, 과학 연구, 제조와 같이 지식 집약적인 분야의 특수 말뭉치에 대한 미세 조정을 통해 모델의 기능을 향상시킬 수 있습니다.
코드 생성 및 프로그래밍 작업: HumanEval과 같은 코드 생성 작업에서 현재 성능이 저조한 점을 감안하여 프로그래밍 데이터 세트에 대한 추가 사전 훈련을 통해 소프트웨어 개발, 자동화 및 코드 완성과 같은 작업에서 모델의 숙련도를 향상시킬 수 있습니다.
윤리적 AI 및 안전: 인간의 윤리적 기준에 맞춰 출력을 조정하기 위해 직접 선호도 최적화(DPO)를 사용하는 것은 샤크티-LLM의 핵심 강점입니다. 향후 개발에서는 이 기능을 더욱 개선하여 특히 개인 정보 보호 및 윤리적 고려 사항이 가장 중요한 의료 및 교육과 같은 산업에서 샤크티-LLM이 안전하고 윤리적인 출력을 지속적으로 생성하도록 해야 합니다.
결론적으로 샤크티-LLM은 다양한 산업과 커뮤니티에서 실질적인 영향을 미치면서 AI를 보다 접근하기 쉽고 효율적이며 포괄적으로 만드는 데 한 걸음 더 나아갑니다.
الإحصائيات
샤크티-LLM은 25억 개의 매개변수를 가진 소형 언어 모델입니다.
샤크티-LLM은 최대 4096 토큰의 문맥 길이를 처리할 수 있습니다.
샤크티-LLM은 Massive Multitask Language Understanding (MMLU) 벤치마크에서 71.7%의 점수를 달성했습니다.
샤크티-LLM은 Physical Interaction QA (PIQA) 벤치마크에서 86.2%의 점수를 달성했습니다.
샤크티-LLM은 BigBenchHard (BBH) 벤치마크에서 58.2%의 점수를 달성했습니다.
샤크티-LLM의 추론 성능은 Phi-3.1-mini-4k보다 GPU 환경에서 최대 2배, Mac 환경에서 최대 1.7배 빠릅니다.