この記事では、一般的な環境で可能なことをモデル化し、新しいタスクに迅速に適応するための手法であるGOMsについて説明しています。GOMsは報酬やポリシーに依存せず、すべての可能な結果をモデル化することで新しいタスクへの迅速な適応を実現し、複利エラーを回避します。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Chuning Zhu,... lúc arxiv.org 03-12-2024
https://arxiv.org/pdf/2403.06328.pdfYêu cầu sâu hơn