本文提出了一種新型可學習的雙層視頻編碼方法,旨在同時滿足機器視覺任務和人類觀看需求。
본 논문에서는 인간과 기계 모두를 위한 효율적인 비디오 표현 및 압축을 가능하게 하는 새로운 비디오 코딩 패러다임을 제시합니다. 이를 위해 베이스 레이어에서 객체 감지를 지원하고, 인핸스먼트 레이어에서 베이스 레이어 정보를 활용하여 인간 시청을 위한 입력 복원을 지원하는 종단 간 학습 가능한 확장형 비디오 코덱을 소개합니다.
本稿では、ベースレイヤーでオブジェクト検出をサポートし、拡張レイヤーと組み合わせて人間が見るための入力再構成をサポートする、エンドツーエンドの学習可能なスケーラブルな人間と機械のためのビデオコーデックを提案する。
This paper introduces a novel end-to-end learned scalable video codec that efficiently compresses video data for both human viewing and machine vision tasks, specifically object detection, by leveraging conditional coding and task-specific optimization.
本文提出了一個大規模的多模態情境推理資料集 MSQA,並設計了基於該資料集的評估基準,用於評估模型在 3D 場景中理解和推理情境資訊的能力。
This paper introduces MSQA, a large-scale dataset with interleaved multi-modal input for situated reasoning in 3D scenes, and proposes two benchmark tasks, MSQA and MSNN, to evaluate models' capability in situated reasoning and navigation.
本文提出了一種名為 AIScene 的新型半監督式光達語義分割方法,旨在解決現有方法在處理帶有和不帶偽標籤點雲時的場景一致性問題,並透過多場景混合增強資料集的語義多樣性,從而提升模型在有限標註資料下的分割效能。
본 논문에서는 레이블링된 데이터가 제한적인 상황에서 라이다 의미론적 분할 성능을 향상시키기 위해 장면 내 일관성과 장면 간 상관관계를 활용하는 새로운 준지도 학습 프레임워크인 AIScene을 제안합니다.
本稿では、ラベル付けされたデータが少ない状況下で、LiDAR点群のセマンティックセグメンテーション精度を向上させるために、シーン内の一貫性とシーン間の相関関係に着目した新しい手法「AIScene」を提案する。
DemMamba 是一種免對齊的原始影片去摩爾紋網路,它利用頻率輔助的時空 Mamba 模型有效地去除影片中的摩爾紋,同時保持時間一致性,並在效率和效果上超越了現有方法。