Centrala begrepp
ジェネラティブAIを活用して、子供向けの没入型マルチモーダルストーリーを生成するシステムを開発する。
Sammanfattning
本論文では、子供向けの教育ツールとしてジェネラティブAIを活用したストーリーテリングシステムを提案している。このシステムは、ナラティブの共創、テキストから音声への変換、テキストから動画への変換を組み合わせることで、子供に魅力的な体験を提供する。
具体的には以下の3つの主要な要素から構成される:
- ナラティブの共創プロセス:
- Freytag のピラミッドとProppの31の物語機能を組み合わせて、一貫性のある物語構造を生成する
- ユーザーが物語の要素を選択し、質問に答えることで、物語の展開を共創する
- テキストから音声への変換:
- テキストを自然な音声に変換するTTSモデルを活用する
- 感情的に表現豊かな語りを実現する
- テキストから動画への変換:
- 物語の各段落に合わせて、詳細なシーンガイドを生成する
- シーンガイドに基づいて、背景音楽を生成し、アニメーション動画を作成する
このシステムの評価では、物語生成のためのLLMモデル、TTSモデル、TVVモデルの性能を詳細に検証している。その結果、最適なモデル構成を見出し、子供向けの安全で魅力的なストーリーテリング体験を実現している。
Statistik
物語生成LLMモデルの評価では、Llama-3.1-8bが最も優れた性能を示した。
TTSモデルの評価では、XTTSv2が女性音声と男性音声の両方で優れた結果を得た。
アニメーションスタイルの評価では、アニメスタイルが最も高い評価を受けた。