StableToolBench는 기존 ToolBench의 안정성 문제를 해결하기 위해 제안된 새로운 벤치마크로, 가상 API 서버와 안정적인 평가 시스템을 통해 대규모 언어 모델의 도구 활용 능력을 안정적으로 평가할 수 있다.