Core Concepts
대규모 언어 모델을 활용하여 기계 학습 데이터셋의 문서화를 자동으로 개선하는 방법을 제안한다.
Abstract
이 연구는 대규모 언어 모델(LLM)을 활용하여 기계 학습 데이터셋의 문서화를 자동으로 개선하는 방법을 제안한다. 최근 규제 이니셔티브와 기계 학습 커뮤니티의 목소리는 데이터셋의 출처 프로세스와 사회적 우려와 같은 여러 핵심 차원을 설명할 필요성을 강조하고 있다. 그러나 이 정보는 일반적으로 동반 문서화의 비구조화된 텍스트로 제시되어 자동 분석과 처리가 어렵다.
이 연구에서는 LLM과 일련의 프롬프팅 전략을 사용하여 이러한 차원을 문서에서 자동으로 추출하고 데이터셋 설명을 개선하는 방법을 탐구한다. 이 접근법은 데이터 게시자와 실무자가 데이터셋의 검색성을 높이고, 현재 AI 규제 준수 여부를 평가하며, 이를 활용하여 학습된 ML 모델의 전반적인 품질을 향상시키는 데 도움이 될 수 있다.
실험에서는 2개의 과학 저널(Nature's Scientific Data와 Elsevier's Data in Brief)에 게재된 12개의 과학 데이터셋 논문을 평가했으며, 2개의 다른 LLM(GPT3.5와 Flan-UL2)을 사용했다. 결과는 프롬프트 추출 전략이 좋은 정확도를 보여주었다. 구체적인 결과는 차원에 따라 다르지만, 전반적으로 GPT3.5가 Flan-UL2보다 약간 더 나은 정확도(81.21% 대 69.13%)를 보였지만 환각에 더 취약했다. 이 연구팀은 이 접근법을 구현한 오픈 소스 도구와 실험 코드 및 결과가 포함된 복제 패키지를 공개했다.
Stats
데이터셋은 2014년부터 2018년 사이에 수집된 900명의 환자로부터 얻은 1,014건의 전신 FDG-PET/CT 검사로 구성되었다.
데이터셋은 경험 있는 방사선과 전문의가 전용 소프트웨어를 사용하여 수동으로 주석을 달았다.
모든 FDG 흡수 종양 병변(있는 경우 원발 종양 및 전이)이 슬라이스별로 분할되어 3D 이진 분할 마스크가 생성되었다.
Quotes
"데이터셋은 하이브리드 영상 분석 분야의 기술적 및 임상적 연구를 가능하게 하는 주석이 달린 공개 PET/CT 이미지 데이터셋을 제공하기 위한 것이다."
"데이터셋은 자동 PET 병변 분할에 대한 격차를 메우기 위해 주석이 달린 PET/CT 연구를 공개적으로 제공하고자 한다."