Keskeiset käsitteet
본 논문에서는 데이터베이스 쿼리 결과에 대한 매개 변수 값 선택의 중요성을 정량화하기 위한 새로운 프레임워크를 제안하며, 이 프레임워크는 게임 이론적 개념인 Shapley 값을 기반으로 쿼리 매개 변수의 중요도를 측정합니다.
서론
본 연구는 데이터베이스 쿼리 결과에 대한 매개 변수 값 선택의 중요성을 정량화하는 프레임워크를 제안합니다. 쿼리 매개 변수는 데이터베이스 쿼리 결과에 큰 영향을 미칠 수 있으며, 이는 매개 변수의 중요성이나 선택된 값의 임의성을 잘못 나타낼 수 있습니다.
예를 들어, 쇼핑몰에서 특정 조건(옷, 여행, 부동산 등)으로 상품을 검색할 때, 너무 적은 수의 결과나 지나치게 비싼 결과를 생성하는 복잡한 매개 변수 양식을 작성할 수 있습니다. 이러한 경우, 부족한 결과에 대한 입력 값의 책임은 무엇일까요? 또한, 채용 면접 대상자를 선정하기 위해 데이터베이스 쿼리를 작성할 수 있습니다. 이때 매개 변수 선택이 사람들의 운명에 어느 정도 영향을 미치는지 궁금할 수 있습니다.
이 연구에서는 쿼리 Q의 데이터베이스 D에 대한 결과 Q(D)에 대한 개별 매개 변수 값의 중요성을 측정하기 위해 원칙적인 정량적 척도를 설정하는 것을 목표로 합니다. 이를 위해 관심 있는 매개 변수를 무작위로 변경할 때 결과가 어떻게 변경되는지 관찰하는 기본 아이디어에서 시작합니다. 또는 매개 변수가 값을 유지하는 동안 다른 모든 매개 변수가 무작위로 변경될 때 결과의 변화를 관찰할 수 있습니다. 그러나 이러한 정의는 매개 변수 간의 종속성을 무시합니다. 매개 변수를 변경해도 다른 매개 변수 값이 있는 경우 영향을 미치지 않을 수 있습니다(예: 여행 기간을 제한하면 연결 항공편 수는 중요하지 않음). 또는 값의 중요성을 과대평가할 수 있습니다(예: 입학 연도를 제한하기 때문에 학기 수를 변경하면 결과가 비어 있음).
게임 이론 및 Shapley 값
이는 게임 이론에서 수십 년 동안 연구되어 온 과제의 특수한 경우로 볼 수 있습니다. 팀의 이익에 대한 개별 기여를 어떻게 귀속시킬 수 있을까요? 특히, 매개 변수 값을 협력 게임의 플레이어로 볼 수 있습니다. 여기서 각 연합(이 경우 매개 변수 값 집합)에는 유틸리티가 있으며, 전체 유틸리티에 대한 각 매개 변수 값의 기여를 정량화하고자 합니다. 그런 다음 경제학, 법률, 생물 정보학, 범죄 분석, 네트워크 분석, 기계 학습 등을 포함한 많은 영역에서 수행된 것처럼 기여 귀속에 대한 기존 공식인 Shapley 값[Sha53]을 채택합니다(예: Shapley 값 핸드북[AFSS19] 참조). Shapley 값은 이익 공유에 대한 몇 가지 기본적인 합리성 공리[Sha53]에 따라 고유하다는 점에서 이론적으로 정당화됩니다. 데이터베이스의 맥락에서 이 값은 최근 쿼리 답변[LBKS20, DFKM22, ADF22, BFL24] 및 데이터베이스 불일치[LK22]에 대한 개별 튜플의 기여도와 클리닝 시스템의 결정에 대한 제약 조건의 기여도를 측정하기 위해 연구되었습니다[DFGS21].
그런 다음 우리의 과제는 한 가지 중심 질문으로 귀결됩니다. 우리는 어떤 게임을 하고 있을까요? 즉, 매개 변수 집합 J의 유틸리티는 무엇일까요? 위에서 논의한 두 가지 기본 아이디어를 따라 두 가지 유사한 방법을 생각해 볼 수 있습니다. 첫 번째 방법에서는 J의 매개 변수 값을 무작위로 변경할 때 쿼리 결과가 어떻게 변경되는지 측정합니다. 큰 변화가 관찰되면 J의 매개 변수 값이 중요한 것으로 간주됩니다. 이러한 변화는 무작위이므로 예상되는 변화를 취합니다. (결과의 변화를 측정하는 방법은 나중에 설명합니다.) 두 번째 방법에서는 결과의 변화를 다시 측정하지만 이제는 J의 매개 변수 값을 수정하고 나머지는 무작위로 변경할 때 그렇게 합니다. 그러나 이제는 J의 값을 사용하면 다른 매개 변수의 영향이 거의 없음을 나타내는 작은 변화가 관찰되면 J의 값이 중요한 것으로 간주됩니다. 이 두 번째 방법은 기계 학습에서 Shap 점수[LL17, LEC+20]로 알려져 있으며, LIME[RSG16] 및 Anchor[RSG18]와 같은 대안 외에도 기능에 대한 주요 점수 속성 방법 중 하나입니다. 이 점수는 특정 지정된 인스턴스에 대한 결정에 대한 각 기능 값의 영향을 정량화합니다. 흥미롭게도 위에서 설명한 첫 번째 방법도 Shap 점수와 일치하여 두 가지 방법이 실제로 동일한 척도를 정의한다는 것을 보여줍니다(정리 3.3). 우리는 일반적인 설정에서 이를 증명하며, 따라서 이러한 동등성은 기계 학습에서 Shap에 도달하는 또 다른 명백히 다른 방법을 보여주기 때문에 독립적인 관심사입니다.
기본 설정
쿼리 Q 및 데이터베이스 D의 컨텍스트에서 프레임워크를 구체화하기 위해 Q(D) 및 Q'(D)에 대해 추론하기 위한 몇 가지 필요한 메커니즘을 제공해야 합니다. 여기서 Q'는 매개 변수까지 Q와 동일합니다. J의 매개 변수에 대해 Q와 동일한 값을 사용하지만 나머지 매개 변수 값은 무작위로 선택됩니다. 특히, 이를 위해 다음과 같은 두 가지 메커니즘이 필요합니다.
(1) 쿼리의 가능한 매개 변수화에 대한 확률 분포 Γ,
(2) Q'(D)가 Q(D)에 얼마나 가까운지 정량화하기 위한 관계 간의 유사성 함수 s.
분포 Γ에는 매개 변수 값의 가능한 조합이 포함될 수 있으며, 확률적으로 독립적이거나 상관 관계가 있을 수 있습니다. s의 경우 집합 간의 유사성(예: [LRB08, SG19]와 같은 유사성 척도에 대한 설문 조사 참조) 또는 데이터베이스 복구의 컨텍스트에서 수행된 것처럼 속성 값 간의 거리를 고려하는 척도를 사용할 수 있습니다[BBFL08]. 3절에서 예를 들어 보겠습니다.
프레임워크의 중심 과제는 계산 복잡성입니다. Shap 점수(일반 Shapley 값과 마찬가지로)의 직접적인 정의에는 기하급수적인 연합 공간에 대한 합산이 포함되기 때문입니다. 실제로 계산은 Shap 점수[ABBM21]와 Shapley 값[FK92, DP94, LBKS20]의 간단한 적응에 대해서도 #P-hard라는 어려운 계산 문제가 될 수 있습니다. 따라서 프레임워크의 인스턴스화에는 특수한 복잡성 분석과 기하급수적인 시간의 순진한 계산을 우회하는 중요한 알고리즘이 필요합니다.
복잡성 분석
우리는 매개 변수가 확률적으로 독립적이고 각각 명시적 값-확률 쌍 모음으로 제공되는 유한 완전 인수 분해 분포에 대한 몇 가지 일반적인 통찰력을 확립하여 프레임워크의 복잡성 분석을 시작합니다. 첫째, 쿼리를 평가하고 유사성 척도를 계산하고 다항식 시간에 모든 매개 변수 조합을 열거할 수 있는 경우 Shap 점수를 다항식 시간에 계산할 수 있습니다. 우리는 Van den Broeck et al.[VdBLSS22]의 최근 일반적인 결과를 사용하여 이를 증명합니다. 이는 처리 가능성 가정 하에 Shap 점수가 무작위 매개 변수 값 하에서 예상 값의 계산으로 줄일 수 있음을 보여줍니다. 둘째, 합리적인 가정 하에 Shap 점수를 계산하는 것은 사소하지 않은 모든 유사성 함수에 대해 쿼리의 공백을 테스트하는 것만큼 어렵습니다. Shap 점수의 정의에는 개념적으로 쿼리를 여러 번 적용해야 하므로 이는 예상됩니다.
결합 쿼리
다음으로 매개 변수가 쿼리 원자의 상수인 결합 쿼리 클래스에 중점을 둡니다. 다시 말해, 각 선택 조건자가 x = p 형식을 갖는 Select-Project-Join 쿼리를 고려합니다. 여기서 x는 속성이고 p는 매개 변수입니다. 위의 일반적인 결과에서 이 경우 데이터 복잡성 하에서 처리 가능하다는 것이 따릅니다. 따라서 우리는 결합된 복잡성에 중점을 둡니다. 공백 문제는 다루기 어렵기 때문에 비순환 쿼리의 처리 가능한 조각을 고려하고 Shap 점수가 거기에서도 #P-hard가 될 수 있음을 보여줍니다.
그런 다음 전체 비순환 쿼리 클래스에 중점을 두고 세 가지 자연스러운 집합 기반 유사성 함수에 대해 Shap 점수를 다항식 시간에 계산할 수 있음을 확인합니다. 흥미롭게도 이것은 Shap 점수를 다항식 시간에 계산할 수 있는 중요한 경우를 제공합니다. Q(D) 및 Q'(D)가 입력 크기에서 기하급수적일 수 있으므로 구체화하기 어렵습니다.
확장
다음으로 결과를 필터가 있는 결합 쿼리로 확장합니다(6절). 결합 쿼리의 필터는 일반(필터 없는) 결합 쿼리의 할당에 대한 부울 조건(예: 내장 관계의 부울 조합(예: 부등식))이 될 수 있는 결합으로 간주될 수 있습니다. 필터에는 매개 변수(예: x ≥ p, 여기서 x는 변수이고 p는 매개 변수)가 포함될 수 있으며, 평소와 같이 Shap 점수에 관심이 있습니다. 우리는 이러한 추가로 인해 매개 변수화된 결합 쿼리(예: 전체 비순환 결합 쿼리)의 클래스에 필터를 추가할 때 처리 가능성 속성이 유지되는 경우를 식별하여 필터에 포함된 변수 및 매개 변수에 대한 구조적 가정에 의존하여 Shap 점수를 계산하기 어려울 수 있음을 보여줍니다. 쿼리 답변에서 비답변의 부재를 설명하는 것을 목표로 하는 "이유는 무엇입니까" 질문(비답변에 대한 출처라고도 함)에서 쿼리 연산자의 중요성을 측정하기 위해 이 확장을 적용한 예를 보여줍니다[CJ09b, BHT15, HCDN08, HH10, Her15, MGMS10, TC10b, HL14, LGC+16]. 이 질문은 튜플이 쿼리 결과 집합에 나타날 것으로 예상되지만 그 안에 없는 시나리오에서 발생합니다. 이러한 부재를 설명하기 위해 이전 연구에서는 여러 가지 설명 모델을 고려했습니다. 우리 작업은 튜플을 실격시키는 연산자를 찾는 데 중점을 둔 연산자 기반 접근 방식[CJ09b, BHT14, BHT15]과 일치합니다. 우리의 기여는 답변을 제거하는 게임에서 필터의 Shapley 값에 대한 연구입니다. 이를 위해 우리는 두 가지 그럴듯한 게임을 조사하고 관련 복잡성을 살펴봅니다. 원고에 설정된 결과를 이 분석에 어떻게 사용할 수 있는지 보여줍니다.
정확한 Shap 점수를 계산하는 것이 종종 불가능하다는 점을 감안할 때 근사 평가의 복잡성도 연구합니다(7절). 샘플링을 사용하여 추가 보장이 있는 효율적인 근사 체계(FPRAS)를 얻을 수 있음을 보여줍니다. 또한 근사값의 처리 가능성은 무작위 변수의 임의 하위 집합에 대한 조건부로 다항식 시간 샘플링을 제공하는 베이지안 네트워크(및 실제로 모든 분포)를 통해 상관 관계가 있는 매개 변수를 허용하도록 일반화됩니다.
컨퍼런스 버전과의 비교
이 작업의 요약 버전은 컨퍼런스 버전[GKLS24]에 실렸습니다. 해당 버전과 비교하여 이 원고에는 몇 가지 새로운 내용이 추가되었습니다. 첫째, 원고에는 모든 결과에 대한 전체 증명이 포함되어 있습니다. 둘째, 필터에 대한 연구(6절)가 새롭습니다. (컨퍼런스 버전에는 매개 변수화된 결합 쿼리에 부등식을 추가하는 것에 대한 제한된 논의가 포함되어 있습니다.) 셋째, 문제 정의, 변형 및 분석(6.2절)을 포함하여 이유는 무엇입니까 질문에 대한 적용도 완전히 새롭습니다.
구성
간략히 말해서 원고는 다음과 같이 구성되어 있습니다. 2절의 예비 정의 후 3절에서 프레임워크를 소개하고 주의 깊게 동기를 부여합니다. 4절에서는 관련 계산 문제의 복잡성에 대한 몇 가지 일반적인 통찰력을 제시합니다. 5절에서는 결합 쿼리 및 독립 매개 변수의 특수한 경우에 중점을 둡니다. 6절에서는 필터 및 이유는 무엇입니까 질문에 대한 확장에 대해 설명합니다. 7절에서는 근사 계산 및 상관 매개 변수의 복잡성에 대해 설명합니다. 8절에서 원고를 마무리합니다.