核心概念
大規模言語モデル(LLM)は、MUMPSやアセンブリ言語などのレガシーコードのドキュメント生成に有効であるが、その品質評価には課題があり、自動化された指標よりも人間の専門家による評価が重要である。
要約
レガシーコードのドキュメント生成におけるLLM活活用の課題と可能性
本論文は、LLMを用いてレガシーコードのドキュメントを生成する際の手法と評価戦略について考察した研究論文である。
従来のソフトウェアモダナイゼーションは、高コストでエラーが発生しやすいプロセスであった。特に、COBOL、MUMPS、アセンブリ言語などの古い言語で書かれたレガシーシステムは、保守や開発が困難であり、モダナイゼーションが急務となっている。LLMはコードの理解、翻訳、生成に可能性を示しているが、レガシーコードへの適用はまだ研究段階であり、その有効性や信頼性については不明な点が多い。
本研究では、MUMPSで書かれた電子健康記録(EHR)システムと、IBMメインフレームアセンブリ言語コード(ALC)で書かれたオープンソースアプリケーションの2つのレガシーデータセットを用いて、LLMによるドキュメント生成能力を評価した。
提案手法
まず、LLMの入力となるコードを、構文的に意味のある単位に分割するチャンク化戦略を採用した。次に、既存のコメントをプレースホルダーに置き換え、LLMにJSON形式でコメントを生成させるプロンプト戦略を提案した。これにより、LLMがコードを変更することなく、コメント生成に集中できるようになった。
評価方法
生成されたコメントの品質を評価するために、専門家による評価と自動評価指標を用いた。専門家評価では、完全性、可読性、有用性、ハルシネーションの4つの観点から評価を行った。自動評価指標としては、コードの複雑さを測定する指標(サイクロマティック複雑度、Halstead複雑度)、コメントの品質を測定する指標(可読性指標、BLEU、ROUGE)、コメント生成のコストを測定する指標を用いた。