Core Concepts
類似性に基づく多様性メトリクスであるVendi Scoreを拡張し、希少なアイテムや一般的なアイテムに対する感度を調整できる一連のVendi Scoreを提案した。これらのスコアは、アラニンジペプチドのシミュレーションや画像生成モデルの評価において有用であることを示した。
Abstract
本論文では、Vendi Scoreを拡張し、希少なアイテムや一般的なアイテムに対する感度を調整できる一連のVendi Scoreを提案した。
まず、Hill数と同様の性質を持ちつつ、類似性を考慮し、事前の知識を必要としないVendi Scoreを定義した。Vendi Scoreの感度は正の実数qによって調整できる。
次に、アラニンジペプチドのシミュレーションにVendi Samplingを適用し、qの選択が重要であることを示した。qが大きいほど、大きな固有値に対応する固有ベクトルに沿った有用なバイアス力を提供できる。一方、小さなqでは、希少なクラスを検出できるが、クラス内のばらつきに敏感になる。
さらに、画像生成モデルの評価にVendi Scoreを適用した。Vendi Score∞は、メモリ化や重複を検出する指標として有効であり、サンプル品質の高いモデルほど、トレーニングデータの周辺に多くの重複サンプルを生成することが分かった。これは、サンプル品質指標とVendi Scoreを組み合わせることの重要性を示唆している。
Stats
左手系のアラニンジペプチド構造は、全体の約1%を占める。
Vendi Scoreq=0.5およびq=1では、左手系構造の有無によって大きな変化が見られた。
Vendi Scoreq=∞では、初期段階の混合が大幅に改善された。
Quotes
"Vendi Scoreq=∞は、最大固有値に対応する固有ベクトルに沿った有用なバイアス力を提供できる。"
"Vendi Score∞は、メモリ化や重複を検出する指標として有効である。"