核心概念
提案するVAEformerを用いることで、ERA5データセットを226TBから0.7TBに圧縮することができ、気候・気象研究に必要な重要な情報を保持したまま、データ保存コストと送信コストを大幅に削減できる。
要約
本研究では、気候データの効率的な圧縮手法であるVAEformerを提案している。VAEformerは、変分自己符号化器(VAE)スタイルのトランスフォーマーエンコーダを用いて、気候データの潜在表現を生成し、さらにトランスフォーマーベースのエントロピーモデルを用いて、量子化された潜在表現の分布を推定する。
提案手法の特徴は以下の通り:
- 変分推論を用いて、潜在表現の分布を正規分布に正規化することで、エントロピーモデルの精度を向上させている
- 大気循環に基づいた効率的なウィンドウアテンションを用いたトランスフォーマーブロックを導入し、計算量を削減している
- 事前学習と微調整の2段階の最適化手順を採用し、圧縮性能を向上させている
提案手法を用いて、226TBのERA5データセットを0.7TBのCRA5に圧縮することに成功した。CRA5は、元のデータと同等の精度を維持しつつ、データ量を1/300に削減できている。さらに、CRA5を用いて訓練した気象予報モデルも、元のERA5を用いたモデルと同等の予報精度を達成できることを示した。
統計
ERA5データセットは226TBの容量があるが、提案手法によって0.7TBのCRA5に圧縮できた。
CRA5は元のERA5データと比べて、極端値の再現性が90%以上を維持している。
引用
"気候変動への対応や正確な気象予報の提供には、膨大な気候データの活用が不可欠である一方で、その保存と送信にかかるコストが大きな障壁となっている。"
"提案するVAEformerを用いることで、ERA5データセットを226TBから0.7TBに圧縮することができ、データ保存コストと送信コストを大幅に削減できる。"
"CRA5を用いて訓練した気象予報モデルは、元のERA5を用いたモデルと同等の予報精度を達成できることを示した。"