本論文は、バイナリ実行ファイルからソースコードの形式を復元するデコンパイルの課題に取り組んでいる。デコンパイルには多くの課題があるが、その中でも変数名の復元は特に重要である。本論文では、大規模言語モデル(LLM)とプログラム解析の相乗効果を活用した新しい手法を提案している。
LLMは豊富な多様なモダリティの知識をエンコードしているが、入力サイズが限られているため、グローバルな文脈を十分に提供できない。そこで本手法では、多数のLLMクエリを分割し、プログラム解析を用いて結果を相関させ伝播させることで、LLMのパフォーマンスを向上させている。
具体的には、以下のような手順を踏む:
実験の結果、ユーザによる主観評価では75%の変数名が適切だと判断された。また、自動評価指標では、従来手法と比べて精度が16.5%、再現率が20.23%向上した。1つの関数の変数名を予測するのに平均8回のLLMクエリを必要とし、実験の総費用は30ドルのみであった。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы