下载 Linnk AI
•
研究助手
>
登录
洞察
-
複雑な手順の実行を支援するマルチモーダルな言語モデルと視覚モデルの統合
複雑な手順を実行するためのマルチモーダルな言語モデルと視覚モデルの統合
複雑な手順を実行する際に、テキストによる手順説明と視覚情報を組み合わせることが重要である。本研究では、テキストと視覚情報を統合したマルチモーダルな言語モデルを提案し、手順の理解と実行を支援する。
1