本研究では、重複バグレポートの検出において、効率性と正確性のバランスを取るための新しいシステムを提案している。従来の手法は、検索タスクと分類タスクを別々に扱っていたが、本研究では両者の長所を活かした統合アプローチを採用している。
まず、クラスター分割に基づくデータセットの生成手法を提案し、学習データからテストデータへの情報漏洩を防いでいる。次に、検索モデルと分類モデルを組み合わせたシステムを構築している。検索モデルは初期候補を絞り込み、分類モデルがさらに精査することで、効率性と正確性のバランスを実現している。
実験の結果、提案手法は検索モデルと分類モデルの中間的な性能を示しつつ、大幅な時間短縮を実現できることが確認された。特に、ユーザーが新しいバグレポートを登録する際や、データベース内の全重複バグを特定する際に有効であることが示された。
本研究の主な貢献は以下の通りである:
To Another Language
from source content
arxiv.org
Дополнительные вопросы