데이터셋 증류 기법을 통해 원본 데이터셋과 동등한 성능을 가지는 작은 합성 데이터셋을 생성할 수 있다. 이를 위해 합성 데이터셋의 크기에 따라 생성되는 패턴의 난이도를 조절하는 것이 핵심이다.
데이터셋 증류 문제에서 워서스타인 거리를 활용하여 실제 데이터셋의 핵심 특성을 효과적으로 포착하고 이를 통해 성능 향상을 달성할 수 있다.
제안된 방법은 데이터셋 증류 과정에서 전역 구조와 지역 세부 사항의 균형을 고려하여 더 강력하고 효율적인 증류된 데이터셋을 생성합니다.
ATOM 모듈은 채널 및 공간 주의 집중을 혼합하여 대규모 데이터셋을 효율적으로 증류할 수 있습니다. 공간 주의 집중은 클래스의 일관된 위치화를 기반으로 학습 과정을 안내하여 더 넓은 수용 영역에서 증류를 가능하게 합니다. 채널 주의 집중은 클래스 자체와 관련된 문맥 정보를 포착하여 합성 이미지를 더 정보적으로 만듭니다. 두 가지 주의 집중을 통합함으로써 ATOM 모듈은 다양한 컴퓨터 비전 데이터셋에서 뛰어난 성능을 보여줍니다.
데이터셋 증류 과정에서 각 합성 데이터 인스턴스의 다양성을 향상시키는 것이 중요하며, 이를 위해 동적이고 지향적인 가중치 조정 기법을 제안한다.
MetaDD는 다양한 신경망 아키텍처에서 일관된 특징을 증류하여 데이터셋 증류의 교차 아키텍처 일반화 능력을 향상시키는 새로운 방법입니다.
WiDistill이라는 새로운 데이터셋 증류 기법을 통해 대규모 Wi-Fi 데이터셋을 더 작은 합성 데이터셋으로 압축하면서도 원본 데이터셋과 유사한 성능을 유지할 수 있다.
대규모 데이터셋을 효율적으로 압축하기 위해 테일러 근사 매칭 기법을 활용하여 기존 방법 대비 성능 저하 없이 시간 및 메모리 효율을 높인 데이터셋 증류 프레임워크를 제안한다.
데이터셋 증류에서 기존 방법들이 정보 추출 및 임베딩 단계에서 잘못 정렬된 정보를 도입하여 성능이 저하되는 문제를 해결하기 위해, 정보 추출 대상 데이터셋과 에이전트 모델의 파라미터를 선택적으로 활용하여 정보 정렬을 우선시하는 PAD(Prioritize Alignment in Dataset Distillation) 방법을 제안한다.