핵심 개념
画像に基づいた論理的で生き生きとした物語の生成と予測を統合する新しいパイプライン、LLaMSを提案します。
초록
ストレージユニットから新しい家に移動する主人公の体験を通じて、ストーリーが始まります。
画像入力による物語生成と予測のパイプラインが提案されます。
LLaMSは、豊かな表現力と一貫性を持つ人間好みの物語を生成します。
人間評価による実験結果は、LLaMSが優れたパフォーマンスを示すことを示しています。
Story Generation
LLaVaはCorrelationで他のモデルよりも優れているが、InterestingnessやConsistencyでは改善の余地がある。
NextGPTはInterestingnessやConsistencyで改善されており、LLaMS-7Bも同様にパフォーマンスが向上している。
Story Prediction
LLaMSは全ての評価指標で最高のパフォーマンスを達成し、他のモデルよりも優れた結果を示しています。
Sequence Data Enhancement
GPTによるキャプションデータ強化は表現力と一貫性を向上させます。
シーケンスデータ強化戦略は物語データの品質向上に効果的です。
통계
"In this work, we propose a new pipeline, termed LLaMS, to generate multimodal human-level stories that are embodied in expressiveness and consistency."
"Evaluations show that LLaMS achieves state-of-the-art storytelling performance and 86% correlation and 100% consistency win rate as compared with previous SOTA methods."