이 논문은 소프트웨어 저장소 샘플링에 대한 방법론을 제안한다. 주요 내용은 다음과 같다:
변수 선택 단계: 연구에 중요한 변수를 선택한다.
변수 분석 단계:
구성 단계: 선택한 변수들의 모든 조합을 생성하고, 유효한 조합을 선택한다.
샘플링 단계: 각 층에서 단순 무작위 표본을 추출한다. 수치형 변수의 경우 반복적으로 추출하여 가장 적절한 샘플을 선택한다.
이 방법론은 Hugging Face 저장소 데이터를 활용한 3가지 사례 연구를 통해 설명되었다. 또한 이 방법론을 구현한 Python 도구도 제공된다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문