Core Concepts
CPUコアでSLMを最大限に活用するための最適な設定と手順
Abstract
本記事では、CPUコアでSLMを最大限に活用する方法について解説しています。
まず、SLMとは「Small Language Model」の略で、PCのハードウェアリソースに合わせてチューニングされたAIモデルのことです。SLMは、メール作成、会議録の作成、会話の要約、メモの作成など、日常的な個人的な管理タスクに適しています。
Intel® Core™ Ultraプロセッサでは、SLMをCPUコア、Intel® Arc™ GPUコア、NPUアクセラレータのいずれかで実行できます。本記事では、CPUコアでの実行が最も簡単で手軽な方法であるため、その最適化について詳しく説明しています。
具体的には、llama.cppプロジェクトを使ってSLMのパフォーマンスを測定する方法を紹介しています。llama.cppでは、物理コア数に合わせてスレッド数を設定することで、最大のメモリバンド幅を活用できることが分かりました。一方、LM Studioでは、デフォルトの4スレッドでは性能が制限されてしまうことが判明しました。
最後に、llama.cppを使ってSLMのパフォーマンスを測定する手順を詳しく説明しています。CPUモデル、メモリ構成、llama.cppのバージョン、モデルの選択、コマンドラインフラグの設定など、再現性のある測定方法を解説しています。
Stats
Intel® Core™ Ultra 165Hプロセッサは、llama.cppで16スレッドを使うことで、Ryzen 7 7840Uプロセッサの8スレッドよりも3つのSLMモデルで優れたパフォーマンスを発揮しました。
Quotes
"最適なパフォーマンスを得るには、システムの物理CPUコア数と同じ数のスレッドを使うことをお勧めします。"
llama.cppのReadmeより