Core Concepts
나이브 베이즈 분류기를 활용하여 편향되지 않고 대표성 있는 감사 증거를 효율적으로 추출할 수 있다.
Abstract
이 연구는 나이브 베이즈 분류기를 활용하여 감사 증거 추출 기법을 개발했다. 주요 내용은 다음과 같다:
데이터를 나이브 베이즈 분류기로 분류하여 각 클래스별 대표성 있는 표본을 추출하는 사용자 기반 접근법을 제안했다. 이는 화폐 가치 및 변수 표본추출 방식의 조합과 유사할 수 있다.
위험한 표본을 비대칭적으로 추출하는 항목 기반 접근법을 제안했다. 이는 비통계적 및 화폐 가치 표본추출 방식의 조합과 유사할 수 있다.
사용자 기반과 항목 기반 접근법을 혼합하여 대표성과 위험성의 균형을 잡을 수 있는 하이브리드 접근법을 제안했다.
3가지 실험을 통해 기계 학습 기반 표본추출의 장점과 한계를 확인했다. 장점으로는 편향된 표본 추출 방지, 복잡한 패턴 및 상관관계 처리, 비정형 데이터 처리, 대용량 데이터 효율성 향상 등이 있다. 한계로는 기계 학습 알고리즘의 분류 정확도와 사전 확률 범위 제한 등이 있다.
Stats
"데이터 세트에는 103개의 레코드가 포함되어 있으며, 이 중 50%는 고객이 광고를 클릭했고 나머지 50%는 클릭하지 않았다."
"스팸 메시지 데이터 세트에는 5,572개의 메시지가 포함되어 있으며, 이 중 13%가 스팸이다."
"파나마 페이퍼스 데이터 세트에는 535,891개의 정점(vertex)이 포함되어 있으며, 각 정점은 의심스러운 금융 계좌를 나타낸다."