Core Concepts
대규모 비밀번호 데이터 유출이 증가함에 따라 연구자들은 실제 비밀번호 데이터를 활용하여 비밀번호 보안 연구를 수행할 수 있게 되었다. 그러나 유출된 데이터에는 실제 적용된 비밀번호 정책 정보가 포함되어 있지 않은 경우가 많아, 이를 유추하는 것이 어려운 문제가 발생한다.
Abstract
대규모 비밀번호 데이터 유출이 증가하면서 연구자들은 실제 비밀번호 데이터를 활용하여 비밀번호 보안 연구를 수행할 수 있게 되었다. 그러나 유출된 데이터에는 실제 적용된 비밀번호 정책 정보가 포함되어 있지 않은 경우가 많아, 이를 유추하는 것이 어려운 문제가 발생한다.
이 논문에서는 이러한 문제를 해결하기 위한 간단한 접근 방식을 제안한다. 제안하는 방식은 비밀번호 데이터의 "잡음"을 제거하기 위해 이상치 탐지 문제로 변환하는 것이다. 이를 통해 유출된 데이터에서 실제 적용된 비밀번호 정책을 유추할 수 있다.
구체적으로 다음과 같은 결과를 보여준다:
RockYou 데이터셋: 최소 길이 5자 정책 확인
Yahoo 데이터셋: 최소 길이 6자 정책 확인
000webhost 데이터셋: 최소 길이 6자, 최소 1개 숫자 정책 확인
LinkedIn 데이터셋: 최소 길이 6자 정책 확인
또한 의도적 데이터 패딩 및 처리 오류를 모방한 합성 데이터셋에 대해서도 제안 방식의 유효성을 확인하였다.
Stats
RockYou 데이터셋의 경우 전체 32,603,048개의 비밀번호 중 32,524,461개(99.76%)가 정책을 준수하고 있었다.
Yahoo 데이터셋의 경우 전체 453,492개의 비밀번호 중 444,942개(98.11%)가 정책을 준수하고 있었다.
000webhost 데이터셋의 경우 전체 15,271,208개의 비밀번호 중 14,936,872개(97.81%)가 정책을 준수하고 있었다.
LinkedIn 데이터셋의 경우 전체 172,428,238개의 비밀번호 중 172,409,689개(99.99%)가 정책을 준수하고 있었다.
Quotes
"Large-scale password data breaches are becoming increasingly commonplace, which has enabled researchers to produce a substantial body of password security research utilising real-world password datasets, which often contain numbers of records in the tens or even hundreds of millions."
"Security researchers may find themselves confounded in this endeavour, however, because when the breached user credential database is released to the public, information about the password composition policy in place at the time of the breach is often not included."