この研究は、歴史的および言語的に偏った分布への対応における合成視覚および言語特徴の役割を検証することを目的としている。
主な発見は以下の通り:
事前学習段階での合成画像の使用は一定の有効性を示すが、自然画像と翻訳キャプションを組み合わせる方が全体的な性能が高い。これは、両方の生成アプローチから蓄積されるノイズが原因と考えられる。
現在の画像生成モデルは、細かな歴史的手がかりを導入することができない。歴史的写真は文脈的属性に大きく依存しているため、テキストと画像の生成の間のギャップが拡大する。
画像説明生成モデルは言語の近接性に定量的に敏感である。同言語の事前学習データを使うと、合成キャプションを使っても高パフォーマンスが得られる。これは言語の類似性が事前学習データセットで重要であることを示している。
要するに、自然画像と翻訳キャプション、歴史的文脈への配慮、言語の近接性の活用が、歴史的および言語的に多様なアーカイブでの説明生成システムの性能向上に不可欠である。
toiselle kielelle
lähdeaineistosta
arxiv.org
Syvällisempiä Kysymyksiä