近年、言語モデルとビジョン言語モデルにおける重要な進展がありました。本研究では、ウェブスクリーンショットから得られる情報を活用することで、画像からテキストへのモデルの性能向上が可能であることが示されています。具体的には、HTML要素の階層構造や空間的配置を活用し、10種類の事前学習タスクが設計されています。これらのタスクは、さまざまなドメインで下流タスクに類似しており、注釈付きデータを安価に取得することができます。結果として、画像からテキストモデルのパフォーマンスが大幅に向上しました。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yuan Gao,Kun... at arxiv.org 03-07-2024
https://arxiv.org/pdf/2403.03346.pdfDeeper Inquiries