Conceptos Básicos
프로그램 유사성 연구를 위해 프로그램 슬라이싱과 재조합을 통해 합성 데이터셋을 생성할 수 있다.
Resumen
이 논문은 프로그램 유사성 연구를 위한 합성 데이터셋 생성 방법을 제안한다. 프로그램 유사성 연구는 다양한 보안 응용 분야에서 중요하지만, 기존 데이터셋의 품질과 가용성이 부족한 문제가 있다.
저자들은 HELIX 프레임워크를 개발하여 오픈소스 라이브러리의 코드 슬라이싱과 재조합을 통해 합성 데이터셋을 생성하는 방법을 제안했다. 또한 Blind HELIX 도구를 개발하여 라이브러리 코드에서 자동으로 HELIX 구성 요소를 추출할 수 있다.
저자들은 HELIX와 Blind HELIX를 사용하여 생성한 데이터셋과 수작업으로 레이블링한 데이터셋을 비교 평가했다. 그 결과, HELIX 데이터셋이 다양한 프로그램 유사성 개념을 잘 반영하고 있음을 확인했다. 또한 여러 프로그램 유사성 도구의 성능을 비교 분석하여 흥미로운 결과를 도출했다.
Estadísticas
프로그램 유사성 연구에 널리 사용되는 도구들은 수작업으로 레이블링한 데이터셋에서 다음과 같은 평균 절대 오차(MAE) 성능을 보였다:
ssdeep: 0.41
sdhash: 0.40
TLSH: 0.29
LZJD: 0.27
BinDiff: 0.19
Citas
"프로그램 유사성 연구는 다양한 보안 응용 분야에서 중요하지만, 기존 데이터셋의 품질과 가용성이 부족한 문제가 있다."
"HELIX 데이터셋이 다양한 프로그램 유사성 개념을 잘 반영하고 있음을 확인했다."