本文提出了一个全面的基准测试E.T. Bench,用于评估视频大型语言模型(Video-LLMs)在多事件和时间敏感的视频理解能力。结果表明,即使是最先进的Video-LLMs在我们的基准测试上也存在局限性,主要是由于对时间表示和多事件建模的不足。为了解决这些问题,我们提出了一种新的模型E.T. Chat,并开发了一个针对多事件和时间敏感场景的指令调优数据集E.T. Instruct 164K,作为强大的基准解决方案。
本文提出了一种新的框架LaIAR,通过利用语言模型的知识来增强视频模型的识别能力和可解释性。