Core Concepts
zk-SNARKsを用いることで、UCBアルゴリズムの訓練データとパラメータの機密性を保ちつつ、意思決定プロセスの透明性を確保する。
Abstract
本研究では、強化学習アルゴリズムのUCBとゼロ知識証明(zk-SNARKs)を統合したzkUCBを提案する。
zkUCBは以下の特徴を持つ:
擬似乱数生成器を導入することで、UCBアルゴリズムの本質的な確率性を決定論的なプロセスに変換する。
対数関数や非整数冪などのUCBの非多項式演算を、多項式近似することで、zk-SNARKsの計算制約に適合させる。
浮動小数点数をQuantization(量子化)することで、zk-SNARKsの有限体演算に適合させる。
これらの工夫により、zkUCBは入力、出力、環境、中間プロセスをすべて1つの命題にカプセル化し、その命題に基づいて決定論的な算術回路を構築することができる。
この算術回路を用いてzk-SNARKsの証明を生成することで、UCB意思決定プロセスの機密性と透明性を両立させることができる。
実験の結果、zkUCBは適切な量子化ビット数を用いることで、標準UCBアルゴリズムを上回る報酬を得られることが示された。
また、zkUCBのプルーフサイズと検証時間は実行ステップ数に比例して増加するものの、その増加は線形であり、大規模なデータセットでも管理可能な規模に収まることが確認された。
これにより、zkUCBは機密性と効率性のバランスが取れた、プライバシー保護型の意思決定プロセス検証手法として期待できる。
Stats
UCBアルゴリズムの実行ステップ数が増えるにつれ、zkUCBのプルーフサイズと検証時間も線形的に増加する。
Quotes
量子化ビット数を適切に設定することで、UCBの意思決定プロセスにおける情報エントロピーを効果的に削減し、報酬を向上させることができる。
大規模なデータセットでも、zkUCBのプルーフサイズと検証時間は管理可能な規模に収まる。