Core Concepts
FoC는 바이너리 코드에 포함된 암호화 기능의 동작을 자연어로 요약하고, 유사한 구현을 데이터베이스에서 검색할 수 있는 임베딩을 생성한다.
Abstract
FoC는 바이너리 코드 분석을 위한 두 가지 주요 구성 요소로 이루어져 있다:
FoC-BinLLM은 바이너리 코드의 의미를 자연어로 요약하는 생성 모델이다. 다중 작업 및 고정 디코더 학습 전략을 사용하여 효율적으로 학습한다.
FoC-Sim은 FoC-BinLLM을 기반으로 구축된 유사성 모델이다. 암호화 관련 특징을 식별하고 다중 특징 융합을 사용하여 고급 유사성 모델을 학습한다.
실험 결과, FoC-BinLLM은 ChatGPT보다 14.61% 높은 ROUGE-L 점수를 보였다. FoC-Sim은 이전 최고 방법보다 52% 높은 Recall@1을 달성했다. 또한 FoC는 바이러스 분석과 1일 취약점 탐지에서 실용적인 능력을 보였다.
Stats
암호화 바이너리 함수를 분석하는 데 사용되는 주요 통계 지표는 다음과 같다:
일반 명령어 수
산술 명령어 수
논리 명령어 수
분기 명령어 수
일반 명령어 BoW
산술 명령어 BoW
함수 내 기본 블록 수
함수 내 엣지 수
함수 내 호출 대상 수
함수 내 고유 호출 대상 수
암호화 관련 키워드 BoW