本研究は、大規模言語モデルのログ生成能力を包括的に調査することを目的としている。
まず、LogBench-Oと呼ばれるベンチマークデータセットを構築した。このデータセットには、GitHubリポジトリから収集した3,870のメソッドと6,849のログ文が含まれている。さらに、LogBench-Tと呼ばれる未知のコードデータセットを生成した。これは、LogBench-Oのコードを意味を保ったまま変換したものである。
次に、11種類の大規模言語モデルを評価した。これらのモデルには、一般的な言語モデル、ログ生成特化モデル、コード理解モデルが含まれる。評価では、ログレベル、ログ変数、ログテキストの3つの側面から、モデルの有効性と一般化能力を検討した。
結果として、以下の8つの知見が得られた:
既存の大規模言語モデルは、ログレベルの予測では74.3%の正解率を達成したが、ログ変数の予測やログテキストの生成では大きな改善の余地がある。
大規模言語モデルの性能は、ログの各要素で一貫していない。つまり、ログレベルの予測が良いモデルがログテキストの生成で優れているとは限らない。
大規模言語モデルを直接適用しただけでも、従来のログ生成手法よりも優れた性能を発揮する。
命令文の違いは大規模言語モデルの性能に影響するが、同じ命令文を使えば、モデル間の順位は一貫している。
デモンストレーション例の数が増えても、必ずしも性能が向上するわけではない。5-7個のデモンストレーション例が最適である。
コメントなどの外部情報を考慮することで、大規模言語モデルのログ生成性能が向上する。
コメントよりも、同一ファイル内の他のメソッドを考慮することで、大規模言語モデルの性能がより向上する。
未知のコードに対しては、大規模言語モデルの性能が大幅に低下する。特にログ変数の予測とログテキストの生成で顕著である。
これらの知見に基づき、5つの示唆と実践的なアドバイスを提示した。大規模言語モデルのログ生成能力の限界を明らかにするとともに、より実用的なモデルの構築に向けた指針を示している。
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Yichen Li,Yi... klo arxiv.org 04-02-2024
https://arxiv.org/pdf/2307.05950.pdfSyvällisempiä Kysymyksiä