Основные понятия
本稿では、BEV(鳥瞰図)ベースの知覚とキャプションの両方のタスクのパフォーマンスを向上させる、マルチモーダルタスクアラインメントフレームワークであるMTAを提案する。
Аннотация
MTA: 自動運転におけるBEV知覚とキャプションのためのマルチモーダルタスクアラインメント
Ma, Y., Yaman, B., Ye, X., Tao, F., Mallik, A., Wang, Z., & Ren, L. (2024). MTA: Multimodal Task Alignment for BEV Perception and Captioning. arXiv preprint arXiv:2411.10639v1.
本研究は、自動運転におけるBEV(鳥瞰図)ベースの知覚とキャプションのタスク間のギャップを埋め、両方のタスクのパフォーマンスを向上させることを目的とする。