사전 학습된 대규모 언어 모델, 다중 모달 시각 언어 모델, 음성 인식 모델을 활용하여 인간이 음성 및 텍스트 대화를 통해 자율 에이전트와 자연스럽게 상호작용할 수 있는 방법을 제안한다.
사전 학습된 대규모 언어 모델, 다중 모달 시각-언어 모델, 음성 인식 모델을 활용하여 인간이 음성 및 텍스트 대화를 통해 자율 에이전트와 자연스럽게 상호작용할 수 있는 방법을 제안한다.