本研究では、強化学習アルゴリズムのUCBとゼロ知識証明(zk-SNARKs)を統合したzkUCBを提案する。
zkUCBは以下の特徴を持つ:
これらの工夫により、zkUCBは入力、出力、環境、中間プロセスをすべて1つの命題にカプセル化し、その命題に基づいて決定論的な算術回路を構築することができる。
この算術回路を用いてzk-SNARKsの証明を生成することで、UCB意思決定プロセスの機密性と透明性を両立させることができる。
実験の結果、zkUCBは適切な量子化ビット数を用いることで、標準UCBアルゴリズムを上回る報酬を得られることが示された。
また、zkUCBのプルーフサイズと検証時間は実行ステップ数に比例して増加するものの、その増加は線形であり、大規模なデータセットでも管理可能な規模に収まることが確認された。
これにより、zkUCBは機密性と効率性のバランスが取れた、プライバシー保護型の意思決定プロセス検証手法として期待できる。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問