본 논문에서는 대규모 멀티모달 상황 인식 데이터셋인 MSQA를 제시하고, 이를 활용하여 3D 장면에서의 상황 인식 및 행동 예측 능력을 평가하는 벤치마크를 소개합니다.
本稿では、3Dシーンにおける状況認識能力を評価するための大規模データセットMSQAと、2つのベンチマークタスクMSQA、MSNNを提案する。
コンテキストビデオのみを用いて、新しい環境でも追加学習なしで目標物体へ移動できる、NOLOと呼ばれる新しいビデオナビゲーション手法とその有効性が示された。
NOLO is a novel method for training AI agents to navigate new environments using only a single, short context video, achieving human-like navigation capabilities through in-context learning.
本文提出了一種名為 MatchTime 的自動足球比賽解說生成系統,透過多模態時間對齊技術解決現有數據集中視覺和文本解說之間普遍存在的錯位問題,並基於此構建了一個高質量的足球比賽解說數據集,用於訓練名為 MatchVoice 的解說生成模型,最終實現準確且專業的足球比賽解說生成。
본 논문에서는 기존 축구 경기 해설 데이터 세트의 시간적 부정합 문제를 해결하여 자동으로 전문적인 수준의 해설을 생성하는 모델을 제안합니다.
本論文では、サッカー試合の映像と実況テキストの間に存在する時間的なずれを解消することで、より正確で質の高い自動実況生成システムの構築を目指している。
This paper introduces a novel approach to generating accurate and contextually relevant soccer game commentary by addressing the crucial issue of temporal misalignment between video footage and textual descriptions in existing datasets.
DreamText is a novel method for high-fidelity scene text synthesis that addresses the limitations of existing methods by introducing a heuristic alternate optimization strategy and balanced supervision to improve character representation and attention guidance during the diffusion process.
本研究提出了一種基於擴散模型的框架 SpineSegDiff,用於對下背痛患者的腰椎 MRI 掃描進行穩健且準確的分割,特別強調了椎間盤的分割,並探討了不同退化性病變對分割準確性的影響。