핵심 개념
본 논문에서는 대규모 언어 모델(LLM)을 활용하여 복잡한 워크플로우를 자동으로 생성하고 관리하는 WorkflowLLM 프레임워크를 제안하며, 이를 통해 기존 RPA(Robotic Process Automation)를 넘어 APA(Agentic Process Automation)로의 패러다임 전환을 가속화하고자 합니다.
초록
WorkflowLLM: 대규모 언어 모델의 워크플로우 오케스트레이션 기능 향상
본 연구 논문에서는 대규모 언어 모델(LLM)의 워크플로우 오케스트레이션 기능을 향상시키기 위한 데이터 중심 프레임워크인 WorkflowLLM을 제안합니다. WorkflowLLM은 대량의 워크플로우 데이터셋인 WorkflowBench를 구축하고, 이를 기반으로 LLM을 미세 조정하여 복잡한 워크플로우를 처리할 수 있도록 합니다.
기존의 RPA(Robotic Process Automation)는 인간이 미리 정의한 규칙에 따라 작업을 자동화하는 반면, APA(Agentic Process Automation)는 LLM을 활용하여 워크플로우 자체를 자동으로 생성하고 관리하는 것을 목표로 합니다. 본 연구는 LLM의 워크플로우 오케스트레이션 기능을 향상시켜 APA 구현에 기여하고자 합니다.
1. WorkflowBench 데이터셋 구축
WorkflowLLM은 106,763개의 워크플로우 샘플과 83개 애플리케이션에서 추출한 1,503개의 API를 포함하는 대규모 데이터셋인 WorkflowBench를 구축했습니다. 데이터셋 구축 과정은 다음 세 단계로 구성됩니다.
1.1 데이터 수집
Apple Shortcuts와 RoutineHub에서 실제 워크플로우 데이터를 수집하고 Python 코드로 변환했습니다. 또한 ChatGPT를 사용하여 각 코드에 대한 주석, 작업 계획, 작업 쿼리를 생성하여 LLM 학습 효율을 높였습니다.
1.2 쿼리 확장
ChatGPT를 활용하여 다양한 API 조합과 워크플로우 범주를 포괄하는 작업 쿼리를 생성하여 데이터 다양성을 확보했습니다.
1.3 워크플로우 생성
수집된 데이터로 훈련된 어노테이터 모델을 사용하여 확장된 작업 쿼리에 대한 워크플로우를 생성하고, ChatGPT와 규칙 기반 필터링을 통해 생성된 워크플로우의 품질을 검증했습니다.
2. WorkflowLlama 모델 학습
WorkflowBench 데이터셋을 사용하여 LLaMA-3.1-8B 모델을 미세 조정하여 WorkflowLlama를 학습했습니다.
3. 성능 평가
WorkflowLlama의 성능을 평가하기 위해 CodeBLEU 및 Pass Rate 지표를 사용하여 다양한 베이스라인 모델과 비교했습니다. 또한 T-Eval 벤치마크를 사용하여 OOD(Out-of-Distribution) 시나리오에서의 일반화 성능을 검증했습니다.