核心概念
ソフトウェア検証とテストの分野において、LLMを活用するためのダウンストリームタスクを体系的に分類し、その特徴を明らかにする。
要約
本論文は、ソフトウェア検証とテストの分野におけるLLMの活用方法を調査し、ダウンストリームタスクの分類を行っている。
まず、ダウンストリームタスクの概念が、LLMを活用したアプローチを理解する上で適切であるかを検証している。その上で、80本の論文を分析し、ソフトウェア検証とテストの問題に対するLLMベースのソリューションを抽出し、それらのタスクを分類している。
分類の結果、生成的タスク、評価的タスク、抽出的タスク、抽象的タスク、実行的タスク、相談的タスクといった6つの大カテゴリが得られた。各カテゴリの下にはさらに細かいタスクファミリが定義されており、合計200以上のタスクインスタンスが同定された。
この分類は、LLMを活用したソフトウェア検証とテストのアプローチの共通点と相違点を明らかにし、今後の研究開発の方向性を示唆するものとなっている。また、LLMの特性を活かしつつ、従来の手法との組み合わせによる効果的なソリューションの構築にも役立つと考えられる。
統計
ソフトウェア検証とテストの分野では、LLMを活用することで、従来の手法では困難であった多様なタスクを実現できる可能性がある。
LLMを活用したアプローチでは、単一のタスクを実行するだけでなく、複数のタスクを組み合わせて問題を解決する例が多数見られる。
LLMの出力結果を、コンパイラやスタティック解析ツールなどの従来手法と組み合わせることで、より高度なソリューションを構築できる。
引用
"Prompting has been the most popular trend to modularly leverage Large Language Model emergent abilities."
"We were able to recover from the 80 reported papers their downstream tasks and present them homogeneously no matter how sophisticated the underlying probabilistic program is."
"Taxonomies may result in rigid concepts that do not favour the use of versatility of concrete concepts and phenomena like, in this case, inference elicited by prompts."