แนวคิดหลัก
실제 Tor 사용자의 다양한 인터넷 활동 패턴을 반영한 GTT23 데이터셋은 기존 합성 데이터셋의 한계를 극복하고 현실적인 웹사이트 지문 추적 공격 및 방어 평가를 가능하게 한다.
บทคัดย่อ
이 연구에서는 Tor 네트워크에서 수집한 실제 사용자 트래픽 데이터셋 GTT23을 소개한다. GTT23은 기존 합성 데이터셋과 달리 실제 Tor 사용자의 다양한 인터넷 활동 패턴을 반영하고 있다.
주요 내용은 다음과 같다:
- 8개의 Tor 출구 릴레이를 통해 13주 동안 약 1,390만 개의 회로를 측정하여 GTT23 데이터셋을 구축했다.
- GTT23은 웹 트래픽뿐만 아니라 다양한 인터넷 서비스 접속 패턴을 포함하고 있으며, 실제 사용자의 자연스러운 접속 기반율을 반영하고 있다.
- 기존 합성 데이터셋과 비교 분석한 결과, GTT23은 회로 길이 분포, 도메인 접속 빈도 등 웹사이트 지문 추적에 중요한 특성을 더 잘 반영하고 있음을 확인했다.
- GTT23은 실제 Tor 사용자 행동을 잘 반영하므로, 향후 웹사이트 지문 추적 공격 및 방어 연구에 활용될 수 있을 것으로 기대된다.
สถิติ
전체 회로 중 96%가 포트 80, 8080, 443(HTTP/HTTPS)을 사용하여 첫 번째 연결을 했다.
대부분의 회로가 25개 미만의 셀(10.5KB 미만)을 포함하고 있어, 전체 웹페이지 전송이 아닌 것으로 보인다.
908,422개(80%)의 도메인에 대해 단 1개의 회로만 측정되었다.