Core Concepts
大規模言語モデルをモバイルデバイス上で動作させることで、自然言語処理の機能をデバイス上で利用できるようになる。質問応答は大規模言語モデルの重要な用途の1つであり、ユーザーの様々な質問に対して正確で文脈に即した回答を提供できる。
Abstract
本研究では、最新の大規模言語モデルをモバイルデバイス上で動作させる方法を示している。llama.cppフレームワークを使用し、6ビット量子化されたOrca-Mini-3Bモデル(30億パラメータ)をGalaxy S21スマートフォン上で対話速度で実行できることを実証した。
実験の結果、政治、地理、歴史などの様々な分野の質問に対して高品質な回答を提供できることが示された。ただし、大規模言語モデルの特性上、時折誤情報を生成することもある。
今後は、より新しい大規模言語モデルであるphi-2の活用や、OpenCLやVulkanを使ったデバイス上でのGPU加速を検討していく。
Stats
Orca-Mini-3Bモデルは約30億パラメータを持ち、6ビット量子化されているため、Galaxy S21スマートフォン上で約2.2GBのCPUメモリを使用する。
モデルの推論は、Galaxy S21スマートフォン上で対話速度で実行できる。
Quotes
"大規模言語モデルをモバイルデバイス上で動作させることで、自然言語処理の機能をデバイス上で利用できるようになる。"
"質問応答は大規模言語モデルの重要な用途の1つであり、ユーザーの様々な質問に対して正確で文脈に即した回答を提供できる。"