近年、言語モデルとビジョン言語モデルにおける重要な進展がありました。本研究では、ウェブスクリーンショットから得られる情報を活用することで、画像からテキストへのモデルの性能向上が可能であることが示されています。具体的には、HTML要素の階層構造や空間的配置を活用し、10種類の事前学習タスクが設計されています。これらのタスクは、さまざまなドメインで下流タスクに類似しており、注釈付きデータを安価に取得することができます。結果として、画像からテキストモデルのパフォーマンスが大幅に向上しました。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問