この論文は、順序情報を持たないデータの通信と保存という問題に取り組んでいる。これは、ファイルの集合、データベースの行、グラフのノード、機械学習アプリケーションのデータセットなど、要素間の順序に意味がないデータタイプに適用できる。
従来の可逆圧縮アルゴリズムは、データポイントの圧縮順序を保持する。順序のないデータを圧縮する場合、要素の順序を任意に選択し、対応する順序付けられたシーケンスを通信する必要がある。しかし、符号化プロセス中に順序情報が削除されない限り、この手順は最適ではない。順序自体が情報を持ち、ソースの表現に必要なビット数が増加してしまうためである。
本論文では、順序のないオブジェクトを、等価なシーケンスのランダムな集合として形式的に定義し、これを組合せ論的確率変数(CRV)と呼ぶ。等価性の定義は、同値関係として形式化され、CRVによって表現される順序のないデータ型を確立する。CRVの達成可能なレートは、同値関係とデータ分布の関数として完全に特徴付けられる。
CRVの最適レートは、後の章で開発されるランダム順列符号(RPC)のファミリー内で達成される。RPCは、CRVのインスタンスを表すことができる多くの可能なシーケンスの中から1つをランダムに選択する。選択は、bits-back符号化と非対称記数システム(ANS)を用いたサンプリングによって行われ、最適レートの達成可能性を保証する。
マルチセット、グラフ、パーティション/クラスタリングの場合に特化したRPCが与えられ、JSONファイル形式のデータベース、ソーシャルネットワーク、Webデータの圧縮のための新しいアルゴリズムを提供する。RPCの計算量とメモリ複雑度は、考慮されるアプリケーションにとって魅力的であることが示されている。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések