본 연구는 다중 객체 조작 작업을 위한 구조화된 강화 학습 프레임워크를 제안한다. 이를 위해 객체 중심의 이미지 표현과 엔티티 간 상호작용을 모델링하는 Transformer 기반 아키텍처를 활용한다. 이를 통해 객체 간 상호작용이 중요한 작업에서 우수한 성능을 보이며, 다양한 객체 수에 대한 일반화 능력을 입증한다.