핵심 개념
본 연구는 2D 이미지와 3D 포인트 클라우드 간의 시각-언어 상호작용을 활용하여 3D 장면 그래프 생성을 위한 약한 감독 학습 방법을 제안한다.
초록
본 연구는 3D 장면 그래프 생성을 위한 약한 감독 학습 방법인 3D-VLAP를 제안한다. 구체적으로:
- 카메라 내부 및 외부 매개변수를 활용하여 3D 포인트 클라우드와 2D 이미지 간의 위치 대응을 수립한다.
- 대규모 시각-언어 모델을 활용하여 2D 이미지와 텍스트 카테고리 레이블 간의 의미를 간접적으로 정렬하고, 이를 통해 객체와 관계에 대한 의사 레이블을 생성한다.
- 에지 자기 주의 기반 그래프 신경망을 설계하여 3D 포인트 클라우드 장면의 장면 그래프를 생성한다.
실험 결과, 제안된 3D-VLAP 방법은 기존의 완전 감독 방법과 비교할 만한 성능을 보이면서도 데이터 주석 부담을 크게 완화할 수 있음을 보여준다.
통계
3D 포인트 클라우드 장면에는 K개의 객체가 존재한다.
객체와 관계의 카테고리 수는 각각 Cobj와 Crel이다.
트리플릿 카테고리의 수는 Ctri = Cobj × Crel × Cobj이다.
인용구
"3D 장면 그래프 생성은 구조화되고 풍부한 3D 장면 표현을 제공하여 다양한 하위 작업에 도움이 된다."
"기존 완전 감독 방법은 객체와 관계에 대한 광범위한 인스턴스 수준 주석이 필요하므로 확장성이 제한적이다."