본 논문에서는 반복적인 경매 환경에서 입찰자가 승리 횟수뿐만 아니라 시간에 따른 승리 분포까지 고려하는 상황을 다루며, 이를 위해 승리 간격이 길어질수록 보상이 감소하는 오목 함수를 기반으로 입찰자의 효용을 모델링하고, 베이지안 온라인 설정에서 최적 입찰 정책에 대한 후회를 최소화하는 학습 알고리즘을 제시합니다.
This research paper introduces a novel model and learning algorithm for bidders participating in repeated auctions where maximizing both the number of wins and their even distribution over time is crucial.
Deep Reinforcement Learning (RL) agents often experience a decline in their ability to learn, known as plasticity loss, hindering their performance and posing significant challenges to the field.
Soft Hoeffding Trees (SoHoT) offer a novel approach to data stream mining, combining the transparency of Hoeffding Trees with the differentiability of soft trees, leading to improved accuracy in class probability estimation while maintaining explainability.
Orbit 框架強調以「目標」為核心來設計和評估多目標排序系統,透過互動式介面和視覺化工具,幫助開發者更有效率地探索設計空間、進行更全面的評估,並促進不同利益關係人之間的溝通和協作。
Orbit은 다목표 랭킹 모델 설계 과정에서 발생하는 여러 이해관계자 간의 소통 문제와 복잡한 평가 요구사항을 해결하기 위해 '목표'를 중심으로 디자인된 인터랙티브 시스템으로, 사용자는 Orbit을 통해 다양한 디자인을 탐색하고, 실시간으로 변화를 관찰하며, 종합적인 평가를 통해 정보에 기반한 의사결정을 내릴 수 있다.
機械学習における多目的ランキングモデル設計の課題を、実務的な視点から分析し、その解決策として、目的を中心とした設計フレームワーク「Orbit」とそのインタラクティブシステムを提案する。
The Kwai-STaR framework enhances the mathematical reasoning abilities of large language models (LLMs) by training them to approach problem-solving as a series of state transitions, leading to significant performance improvements in mathematical reasoning tasks.
Orbit is an interactive system that facilitates the design and evaluation of multi-objective rankers by placing objectives at the center of the process, enabling efficient exploration of design trade-offs and fostering communication among stakeholders.
多代理協作系統在處理複雜的金融分析任務(如風險分析)方面優於單一代理模型,而單一代理模型在處理較簡單的任務(如基本面和市場情緒分析)時表現更佳。