Kernkonzepte
데이터 시장에서 데이터 구매자가 자신의 테스트 데이터에 대한 예측 오류를 최소화하기 위해 데이터 판매자로부터 가장 유용한 데이터 포인트를 선택하는 방법
Zusammenfassung
이 논문은 데이터 시장에서 데이터 구매자가 자신의 테스트 데이터에 대한 예측 오류를 최소화하기 위해 데이터 판매자로부터 가장 유용한 데이터 포인트를 선택하는 방법을 제안합니다.
기존 데이터 가치 평가 방법은 중앙 집중식 데이터 액세스를 가정하며, 검증 데이터 세트에 과적합될 수 있는 문제가 있습니다.
저자들은 실험 설계 기반의 새로운 데이터 선택 방법을 제안합니다. 이 방법은 구매자의 레이블이 없는 테스트 데이터를 직접 활용하여 데이터를 선택하므로, 검증 데이터 세트에 과적합되는 문제를 해결할 수 있습니다.
제안된 방법은 예산 할당과 수익 배분 문제를 동시에 해결할 수 있으며, 연산이 빠르고 연방화된 절차로 최적화할 수 있습니다.
실험 결과, 제안된 방법은 다양한 의료 데이터 세트에서 기존 데이터 가치 평가 방법보다 우수한 성능을 보였습니다.
Statistiken
데이터 구매자의 테스트 데이터 x0는 Bd
R (반지름 R의 d차원 구)에 포함됩니다.
데이터 구매자의 테스트 데이터 y는 y = θ⊤x + σ · ϵ의 형태로 모델링됩니다. 여기서 ϵ는 표준 정규 분포를 따르는 노이즈입니다.
Zitate
"현재 데이터 가치 평가 기술은 데이터 시장 설정에 불충분합니다."
"우리가 제안하는 방법은 검증 데이터 세트를 사용하지 않고 구매자의 레이블이 없는 테스트 데이터를 직접 활용하여 데이터를 선택합니다."