Khái niệm cốt lõi
본 연구는 2D 이미지와 3D 포인트 클라우드 간의 시각-언어 상호작용을 활용하여 3D 장면 그래프 생성을 위한 약한 감독 학습 방법을 제안한다.
Tóm tắt
본 연구는 3D 장면 그래프 생성을 위한 약한 감독 학습 방법인 3D-VLAP를 제안한다. 구체적으로:
- 카메라 내부 및 외부 매개변수를 활용하여 3D 포인트 클라우드와 2D 이미지 간의 위치 대응을 수립한다.
- 대규모 시각-언어 모델을 활용하여 2D 이미지와 텍스트 카테고리 레이블 간의 의미를 간접적으로 정렬하고, 이를 통해 객체와 관계에 대한 의사 레이블을 생성한다.
- 에지 자기 주의 기반 그래프 신경망을 설계하여 3D 포인트 클라우드 장면의 장면 그래프를 생성한다.
실험 결과, 제안된 3D-VLAP 방법은 기존의 완전 감독 방법과 비교할 만한 성능을 보이면서도 데이터 주석 부담을 크게 완화할 수 있음을 보여준다.
Thống kê
3D 포인트 클라우드 장면에는 K개의 객체가 존재한다.
객체와 관계의 카테고리 수는 각각 Cobj와 Crel이다.
트리플릿 카테고리의 수는 Ctri = Cobj × Crel × Cobj이다.
Trích dẫn
"3D 장면 그래프 생성은 구조화되고 풍부한 3D 장면 표현을 제공하여 다양한 하위 작업에 도움이 된다."
"기존 완전 감독 방법은 객체와 관계에 대한 광범위한 인스턴스 수준 주석이 필요하므로 확장성이 제한적이다."