本研究は、無線リソース管理問題に対して、オフラインおよび分布強化学習アルゴリズムを提案する。提案手法は、環境との対話なしにオフラインで学習を行い、リターンの分布を考慮することで、実世界の不確実性に対処する。