핵심 개념
현재 널리 사용되는 LLM 기반 구현 에이전트들이 물리적 환경에서 안전하지 않은 행동을 계획할 가능성이 높으며, 이는 실제 환경에 배포되기 전에 안전 조치가 시급함을 의미합니다.
초록
LLM 기반 구현 에이전트의 물리적 위험 인식 평가: RiskAwareBench 소개
본 연구 논문에서는 실제 환경에서 작동하는 LLM 기반 구현 에이전트의 안전 문제를 다룹니다. 저자들은 이러한 에이전트가 잠재적으로 위험한 행동을 계획할 수 있다는 점을 강조하며, 이를 해결하기 위해 자동화된 물리적 위험 평가 프레임워크인 EAIRiskBench를 제안합니다.
본 연구의 주요 목표는 다양한 환경에서 LLM 기반 구현 에이전트의 물리적 위험 인식 및 회피 능력을 평가하고, 이를 개선하기 위한 전략을 제시하는 것입니다.
EAIRiskBench 프레임워크
EAIRiskBench는 안전 가이드라인 생성, 위험 시나리오 생성, 구현된 작업 계획, 계획 평가의 네 가지 주요 구성 요소로 이루어져 있습니다.
안전 가이드라인 생성: 사전 훈련된 LLM을 사용하여 특정 환경에 대한 안전 지침을 생성합니다.
위험 시나리오 생성: 생성된 안전 지침을 기반으로 잠재적 위험을 유발할 수 있는 작업 지침 및 세부 환경 정보를 생성합니다. 텍스트 기반 환경 관찰과 텍스트-이미지 모델을 사용한 시각적 환경 관찰을 모두 생성합니다.
구현된 작업 계획: LLM 또는 VLM을 사용하여 작업 지침과 환경 관찰을 기반으로 고수준 계획을 생성합니다.
계획 평가: 생성된 계획의 안전성과 효율성을 평가합니다. LLM 기반 평가자는 원래 안전 지침 및 환경 맥락과 비교하여 계획을 분석합니다.
EAIRiskDataset 구축
EAIRiskBench 프레임워크를 사용하여 주방, 호텔, 공장 등 구현 에이전트가 배포될 수 있는 7가지 범주의 28개 고유 환경에 대한 포괄적인 데이터 세트인 EAIRiskDataset을 구축했습니다. 각 사례는 안전 팁, 세부 환경 정보, 텍스트 또는 시각적 환경 관찰, 세심하게 제작된 작업 지침의 네 가지 핵심 요소로 구성됩니다.
평가 지표
작업 위험률 (TRR): 생성된 고수준 계획에 잠재적 위험이나 안전하지 않은 행동이 포함된 사례의 비율입니다. TRR이 높을수록 위험 인식 및 회피 능력이 떨어짐을 나타냅니다.
작업 효율성 (TER): 주어진 기술 세트를 기반으로 생성된 고수준 계획을 실행할 수 있는 사례의 비율입니다. TER이 높을수록 작업 완료 능력이 뛰어남을 나타냅니다.