StackOverflowの膨大な投稿コーパスを分析するための適切な表現モデルの開発が重要であり、既存の特化モデルでは限界があることが明らかになった。そのため、より適切な表現モデルを見つけるための探索が必要である。
FuSeBMC-AIは、機械学習モデルを使ってソフトウェアプログラムの最適な検証設定を予測し、ハイブリッド検証アプローチの効率を向上させる。
言語モデルは、複雑なソフトウェア開発タスクを解決するのに十分な能力を持っていない。SWE-benchは、実世界のGitHubイシューを解決するための新しい評価フレームワークであり、言語モデルの実用性、知性、自律性を向上させるための重要なステップとなる。
ヘテロジニアスなシステムにおいて、異なる言語や型システムを持つコンポーネントを統合するための方法論を提案する。
ソフトウェア工学研究者はGitHubを自身の研究成果物(ツール、レプリケーションパッケージ、データセット)を公開する場として活用しているが、その人気度や影響力は研究分野や成果物の種類によって大きく異なる。
行動プログラミング(BP)では、安全性要件のみを実行できるが、「少なくとも3回Xを実行する」などの生存性要件を直接的に実行することはできない。本論文では、「must-finish」という新しいイディオムを提案し、これを用いることで、既存の文献から知られる要件パターンを直接的に仕様化できることを示す。また、この新しいイディオムに基づいて、ブチ自動機(GBA)とマルコフ決定過程(MDP)を用いた2つの実行メカニズムを提案する。MDP ベースのアプローチでは、深層強化学習(DRL)アルゴリズムを活用することで、大規模なソフトウェアシステムに対しても効果的に対処できる可能性を示す。
大規模言語モデルを用いることで、従来のログ生成手法よりも優れた性能を発揮できる可能性がある。しかし、大規模言語モデルのログ生成能力は十分に検証されていない。
多様なAIエージェントを活用し、GPT-4、GPT-3.5 Turbo、Google Bard、LLaMA、Hugging Faceなどの高度な言語モデルのコード生成性能を包括的に評価する。
リアルワールドのソフトウェアプロジェクトから抽出されたバージョンには通常複数の不具合が存在するが、既存のデータセットはそれらを十分に反映していない。本研究では、テストケースの移植と不具合位置の特定により、これらの複数の不具合を同定し、より現実的なデータセットを構築する。
ジェネレーティブAIを活用したソフトウェア製品のリリース準備に関する包括的なチェックリストを提示し、信頼性、監視、デプロイメント戦略などの重要な側面を評価することで、実世界での利用に向けた信頼性と有効性を高める。