Alapfogalmak
본 논문에서는 반복 경매 환경에서 예산 제약 하에 입찰 에이전트가 사용하는 예산 조절 알고리즘의 효율성을 분석하고, 알고리즘의 수렴 여부와 관계없이 최적의 사회적 후생을 달성할 수 있음을 보여줍니다.
Kivonat
반복 경매에서의 예산 조절: 수렴 없는 후회 및 효율성 분석
온라인 광고 시장에서 광고는 주로 경매를 통해 할당됩니다. 광고주는 인터넷 플랫폼에 입찰하여 주어진 페이지뷰에 광고가 게재될지 여부와 가격을 결정합니다. 일반적으로 광고주는 매일 수천 건의 경매에 참여하며, 다양한 광고 크기와 형식, 지불 옵션(노출당 지불, 클릭당 지불, 전환당 지불 등) 중에서 선택하고, 사용자 인구 통계 및 의도에 대한 다양한 신호에 맞춰 입찰가를 조정합니다. 광고주의 입장에서 의사 결정 프로세스를 더욱 복잡하게 만드는 것은 이러한 많은 경매 인스턴스가 광고에 할당할 수 있는 총 금액인 예산 제약을 통해 전략적으로 연결된다는 것입니다. 따라서 광고주는 광고 기회가 복잡하게 얽혀 있는 상황에서 글로벌 예산을 적절하게 할당하는 방법을 선택한 다음 이러한 의도를 입찰 전략으로 전환해야 하는 어려운 과제에 직면해 있습니다.
이러한 어려움을 해결하기 위해 모든 주요 온라인 플랫폼에서는 광고주의 대신 캠페인 매개변수를 조정하는 자동 예산 관리 서비스를 제공합니다. 이는 일반적으로 예산 조절을 통해 달성됩니다. 광고주는 글로벌 예산 목표와 다양한 유형의 광고 기회에 대한 최대 지불 의향을 지정하고, 실현된 일일 지출이 목표 예산과 일치하도록 이러한 최대값을 배율 인수로 축소(또는 "조절")합니다. 알고리즘 입찰 에이전트는 경매 결과를 관찰하면서 광고주의 입찰가를 조절하는 가장 좋은 방법을 온라인으로 학습합니다. 이러한 캠페인 관리 서비스는 온라인 광고 생태계 진입 장벽을 낮추고 광고주가 변화하는 시장 상황에 직면하여 끊임없이 캠페인을 조정할 필요성을 없애줍니다. 또한 플랫폼은 자세한 시장 통계에 직접 액세스할 수 있기 때문에 예산을 관리하는 데 더 유리한 위치에 있는 경우가 많습니다.
입찰 에이전트는 이제 모든 성숙한 광고 플랫폼에서 거의 보편적으로 채택되고 있지만, 이러한 성공은 전체 시장 관점에서 몇 가지 중요한 질문을 제기합니다. 거의 모든 광고주 지출이 입찰가를 동시에 학습하는 자동 입찰 에이전트에 의해 통제될 때 전체 시장 결과에 대해 무엇을 말할 수 있을까요? 그리고 이는 기본 경매의 세부 사항에 따라 어느 정도까지 달라질까요?
우리 질문의 중심에는 개별 학습과 총 시장 효율성 사이의 상호 작용이 있습니다. 예를 들어, 각 광고 기회가 2차 가격 경매로 판매될 때 선형 입찰 전략(즉, 최대 지불 의향에서 입찰가로의 매핑)은 실제로 효용 극대화 에이전트와 가치 극대화 에이전트 모두에게 가능한 모든 입찰 전략에 비해 최적이며, 에이전트는 기울기 기반 방법을 사용하여 사후적으로 최상의 입찰 전략에 비해 사라지는 후회를 달성할 수 있습니다. 반면에 2차 가격 경매에 참여하는 여러 입찰 에이전트가 순수 내쉬 균형을 형성하는 조절 요소를 선택하면 결과적으로 얻어지는 결과는 (예상 유동적 후생을 극대화한다는 의미에서 대략적으로 효율적인 것으로 알려져 있습니다. 언뜻 보기에 이러한 결과의 조합은 2차 가격 경매에서 입찰 에이전트의 총 성과에 대한 질문에 답하는 것처럼 보입니다. 그러나 온라인 학습 알고리즘이 내쉬 균형, 순수 내쉬 균형으로 수렴하는 것은 보장하기 어렵고 당연하게 여겨져서는 안 됩니다. 또한 조절 게임의 순수 내쉬 균형을 찾는 것은 2차 가격 경매에서 PPAD 하드이므로, 다항식 시간 온라인 학습 전략을 사용하는 입찰 에이전트가 2차 가격 경매의 모든 일반성에서 순수 내쉬 균형으로 효율적으로 수렴한다고 가정해서는 안 됩니다. 따라서 입찰 에이전트가 수렴하지 않으면 전체 시장 성과는 어떻게 될까요?
본 논문에서는 수렴에 의존하지 않고 전체 시장 효율성 측면에서 우수한 총 보장을 동시에 허용하면서도 특정 광고주에게 이익이 되는 온라인 학습 알고리즘으로서 우수한 개별 보장을 제공하는 (클래스의) 입찰 알고리즘을 제공합니다. 밀접하게 관련된 문헌은 다음과 같습니다. (i) 입찰 역학을 고려하지 않고 예산 제약이 있는 단일 샷 광고 경매의 총 결과, (ii) 총 성과를 고려하지 않고 예산 제약이 있는 온라인 학습, (iii) 학습 에이전트가 반복 게임에서 균형으로 수렴하는 조건. 이러한 관점을 염두에 두고 (i)의 최첨단 총 보장과 일치하면서 (iii)의 조건을 우회하여 수렴에 의존하지 않고 (ii)의 최첨단 개별 보장과 질적으로 동등합니다. 우리는 논쟁의 여지가 있지만 상당히 자연스럽고 광범위한 경매에 적용되는 입찰 알고리즘을 사용하여 이를 달성합니다.
우리 모델에서는 각각 경매 인스턴스에 해당하는 T 라운드가 있습니다. 모든 결과는 1차 가격, 2차 가격 및 GSP 경매를 포함한 여러 경매 규칙에 적용됩니다. 에이전트가 관찰하는 개인 가치(즉, 최대 지불 의향)는 각 라운드에서 무작위로 추첨되며 서로 임의로 상관될 수 있으며, 이는 서로 다른 광고주의 지불 의향이 노출의 특성을 통해 상관되는 시나리오를 포착합니다. 각 라운드에서 입찰 에이전트는 해당 광고주의 대신 입찰가를 제출합니다. 에이전트는 서로 독립적으로 운영되며 경매에서 받은 피드백을 통해서만 상호 작용합니다.
우리는 2차 가격 경매의 맥락에서 Balseiro와 Gur [12]가 처음 소개한 기울기 기반 조절 알고리즘(알고리즘 1)에 중점을 둡니다. 그들은 (준선형) 효용 극대화 문제의 라그랑주 쌍대를 통해 이 알고리즘을 도출합니다. 우리는 이 알고리즘을 더 풍부한 할당 문제 및 경매 형식 클래스로 직접 확장합니다. 이 확장의 기초가 되는 것은 2차 가격 경매를 넘어서도 적용되는 특정 인공 목표에 대한 확률적 기울기 하강으로서 이 알고리즘에 대한 수정된 해석입니다.
첫 번째 결과: 총 시장 성과. 입찰 에이전트가 알고리즘 1을 사용하여 조절 배율 인수를 조정할 때 학습 역학 과정에서 얻은 유동적 후생은 할당 규칙으로 얻을 수 있는 최적의 예상 유동적 후생의 절반 이상임을 증명합니다. 중요한 것은 이 보장이 알고리즘의 행동이 입찰 게임의 균형으로 수렴되는지 여부에 의존하지 않는다는 것입니다. 그럼에도 불구하고 정적 진실 경매 [1, 7]에서 순수 내쉬 균형에 대해서도 가능한 최상의 보장과 일치합니다.
유동적 후생은 에이전트가 주어진 할당에 대해 공동으로 지불할 의향이 있는 최대 금액입니다. 다시 말해, 이는 모든 것을 아는 경매인이 이 할당에 대해 추출할 수 있는 최대 수익입니다. 유동적 후생은 우리 환경에 특화될 때 보상적 변화와 일치합니다. 편리하게도 이는 금전적 효용 목표가 아닌 제약 조건에 따라 가치(예: 클릭 수 또는 받은 노출 수)를 극대화하려는 에이전트에게 적합한 후생 척도입니다. 에이전트의 목표가 예산 제약 조건에 따라 광고주의 효용을 극대화하는 목표와 같이 달러로 표현될 수 있는 경우, 공리주의적 후생이 합리적인 총 목표가 될 것입니다. 그러나 단일 상품 [28]에 대한 단일 샷(반복되지 않음) 설정에서도 강력한 불가능성 결과가 알려져 있습니다. 따라서 유동적 후생은 예산이 제한된 환경에서 사회적 잉여의 의미 있는 개념이며, 예산이 무한할 때 공리주의적 후생으로 특수화됩니다. 예산 제약 경매 [28, 6, 1, 7] 분석에서 표준 목표가 되었습니다.
지금까지 우리의 논의는 주로 2차 가격 단일 품목 경매에 초점을 맞추었지만, 우리의 근사 결과는 실제로 실제 광고 플랫폼에서 사용되는 것들을 포함하여 훨씬 더 풍부한 할당 문제 및 경매 형식 세트에 적용됩니다. 우리는 단일 분할 가능 상품의 가능한 할당 세트에 대한 임의의 하향 폐쇄 제약 조건을 허용하며, 이는 단일 품목 경매뿐만 아니라 여러 슬롯과 분리 가능한 클릭률이 있는 스폰서 검색 경매와 같은 복잡한 설정도 포착합니다. 또한 기본 메커니즘이 진실하지 않은 경우에도 결과가 적용됩니다. 우리는 모든 핵심 경매를 수용합니다. 즉, 어떤 에이전트 연합도 경매인과 결과를 재협상하여 공동 효용을 개선할 수 없는 경매입니다. 이는 1차 및 2차 가격 경매와 일반화된 2차 가격(GSP) 경매를 포함하고 이전에 광고 경매 [31, 35]의 맥락에서 연구된 잘 연구된 경매 클래스입니다. 그러나 반복되는 단일 품목 경매와 일정한 개인 가치가 있는 훨씬 더 단순한 모델에서도 문제는 사소하지 않고 (거의) 어려운 과제로 남아 있습니다.
두 번째 결과: 개별 후회 보장. 1차 가격 및 GSP 경매를 포함한 광범위한 (아마도 진실하지 않은) 경매에 대한 총 시장 성과를 분석했지만 기울기 기반 조절은 이러한 설정에서 효과적인 학습 방법일까요? 기본 경매가 진실할 때 후회 보장이 알려져 있지만 [12, 16], 진실하지 않은 경매는 어떻습니까? 이 질문에 답하기 위해 우리는 달러당 얻은 한계 가치가 에이전트의 입찰가에서 약하게 감소한다는 것을 의미하는 단조로운 뱅포벅 조건을 충족하는 모든 경매 형식에 참여하는 개별 입찰 에이전트가 얻은 후회를 제한합니다. 예를 들어, 1차 및 2차 가격 경매는 GSP 경매와 마찬가지로 이 조건을 충족합니다. 우리는 입찰 에이전트가 얻은 총 가치가 사후적으로 최상의 조절 배율 인수에 비해 O(T 3/4)의 후회를 갖는다는 것을 보여줍니다. 이는 반대 입찰 프로필이 각 라운드에서 동일한 분포에서 독립적으로 추출되는 확률적 환경에서 발생합니다.
기본 경매가 진실할 때 사후적으로 최상의 고정 조절 배율 인수는 효용 극대화 에이전트와 가치 극대화 에이전트 모두에게 선형이 아닐 수 있는 가치에서 입찰가로의 매핑인 모든 가능한 입찰 전략 클래스에 비해 최적인 것으로 알려져 있습니다. 즉, 2차 가격 경매와 같은 진실 경매의 경우 후회에 대한 벤치마크는 실제로 사후적으로 최적의 입찰 정책입니다. 그러나 진실 경매를 넘어서도 최상의 선형 정책(즉, 최상의 조절 배율 인수)이 적절한 벤치마크라고 주장합니다. 첫째, 우리는 추상적으로 에이전트 가치를 노출당 지불 의향으로 모델링하지만 실제로 가치의 변화는 주로 플랫폼 내부의 클릭률 추정치에 의해 주도됩니다. 이러한 환경에서 입찰 알고리즘이 플랫폼 외부에 있는 광고주는 필연적으로 선형 정책으로 제한됩니다. 실제로 알고리즘이 플랫폼의 클릭률 추정치에 액세스할 수 없는 경우 입찰 "전략"은 단순히 클릭률에 의해 (선형적으로) 곱해지는 단일 실수 값 입찰가로 축소됩니다. 더 공식적인 논의는 부록 F를 참조하십시오. 따라서 벤치마크는 외부에서 제공한 입찰가로 사후적으로 달성할 수 있는 최상의 성과를 추적합니다. 둘째, 선형 조절은 진실하지 않은 경매에 대해서도 알고리즘 입찰 정책으로 실제로 일반적으로 사용되므로 [23], 실질적인 관점에서 선형 조절 정책에 주의를 집중하는 것이 유용합니다. 셋째, 선형 조절은 온라인 학습 관점에서 합리적입니다. 일반적으로 가설 클래스로 정책 하위 집합을 선택하는 것이 일반적이며(이 클래스에 최적 정책이 포함되어 있는 것으로 알려져 있지 않더라도), 선형 정책 집합은 고려해야 할 일반적이고 자연스러운 클래스입니다.
위의 논의는 확률적 환경에서 이루어지지만, 반대 입찰가가 경매 기록에 따라 적응적으로 그리고 적대적으로 변경될 수 있도록 허용함으로써 훨씬 더 강력한 개별 보장을 증명합니다. (실제로 다른 에이전트의 입찰 알고리즘이 입찰가를 수정할 수 있기 때문에 현실적인 경매 환경이 개별 입찰자의 관점에서 반드시 확률적인 것은 아닙니다.) 이러한 환경에서 기울기 기반 조절은 완벽한 조절 시퀀스에 비해 사라지는 후회를 달성한다는 것을 보여줍니다. 완벽한 조절 시퀀스는 각 라운드의 예상 지출이 정확히 라운드당 예산이 되도록 하는 조절 배율 인수 시퀀스입니다. 확률적 환경에서 이 완벽한 조절 시퀀스는 정확히 사후적으로 단일 최상의 고정 조절 배율 인수입니다. 보다 일반적으로 이 시퀀스는 균일하지 않을 수 있으며 예산 제약 조건에 따라 예상 값을 극대화하는 시퀀스가 아닐 수도 있습니다. 적대적인 환경에서 후자의 목표에 대해 낮은 후회를 달성하는 것은 본질적으로 희망이 없습니다(이에 대한 자세한 내용은 1.2절 참조). 따라서 우리는 완벽한 조절 시퀀스를 이 문제에 대한 합리적이고 다루기 쉬운 벤치마크로 제안하며, 특히 우리 알고리즘에 적합합니다(비고 4.13 참조). 실제로 이 시퀀스를 따르는 것(즉, 시간 경과에 따라 목표 지출 비율과 최대한 일치시키는 것)은 예산 관리 시스템의 자연스럽고 바람직한 목표가 될 수 있습니다.
수치 시뮬레이션. 이론적 발견을 보완하기 위해 Bing Advertising 플랫폼의 경매 및 캠페인 데이터를 기반으로 알고리즘 1의 반합성 수치 시뮬레이션을 제공합니다. 우리는 표준 벤치마크인 사후적으로 최상의 고정 조절 배율 인수에 대한 후회에 중점을 둡니다. 적대적인 환경에서 이 벤치마크에 대한 낮은 후회 보장의 불가능성에 따라 경쟁 입찰 에이전트가 동시 학습에 참여하는 다중 플레이어 환경의 진행 상황을 시뮬레이션합니다. 우리는 수치적으로 알고리즘 1의 동시 실행이 시뮬레이션에서 사라지는 후회를 생성하고 후회율이 T 3/5 미만임을 발견했습니다.