Core Concepts
プログラム類似性研究のための大規模で有用な合成データセットを生成する手法を提案する。
Abstract
本論文では、プログラム類似性研究のための合成データセットを生成する手法を提案している。プログラム類似性研究には高品質なデータセットが不可欠だが、現状では適切なデータセットが不足しているのが課題となっている。
提案手法では、オープンソースライブラリのプログラムスライシングを用いて、プログラム機能の小さな部品(コンポーネント)を自動抽出し、それらを組み合わせることで合成データセットを生成する。生成されたデータセットには、プログラム間の類似性に関する正解ラベルが付与されている。
提案手法を評価するため、手作業で作成した複数の類似性概念を含むデータセットと、提案手法で生成したデータセットを用いて、既存のプログラム類似性検出手法の性能を比較した。その結果、提案手法で生成したデータセットが、現実的で有用なプログラム類似性概念を適切にモデル化できていることが示された。
本手法は、プログラム類似性研究のための大規模で高品質なデータセットを効率的に生成できる有用な手法であると考えられる。
Stats
プログラム類似性研究には高品質なデータセットが不可欠だが、現状では適切なデータセットが不足している。
Quotes
"プログラム類似性は、バグ検索、マルウェアクラスタリング、マルウェア検出、マルウェアの系譜、パッチ生成と分析、プログラムバージョン間の移植情報、ソフトウェア盗用検出など、幅広い応用分野を持つ研究領域である。"
"既存のデータセットは、プログラム類似性に関する不透明な概念を捉えており、実世界の問題との関連性が疑問視されている。"