核心概念
YORO는 데이터베이스 지식을 모델 내부에 직접 내재화하여 입력 길이를 크게 줄이면서도 기존 방식과 경쟁력 있는 성능을 달성한다.
摘要
YORO는 기존 텍스트-SQL 변환 방식의 한계를 해결하기 위해 제안된 새로운 패러다임이다. 기존 방식은 매번 데이터베이스 스키마를 반복적으로 인코딩하여 비효율적이었고, 데이터베이스 내용을 충분히 활용하지 못했다.
YORO는 이를 해결하기 위해 데이터베이스 지식을 모델 내부에 직접 내재화한다. 이를 위해 YORO는 합성 데이터를 활용하여 각 데이터베이스에 특화된 전문가 모델을 학습한다. 이를 통해 YORO는 데이터베이스 스키마 정보 없이도 질문에 대한 SQL 쿼리를 생성할 수 있다.
YORO의 실험 결과, 기존 방식과 비교하여 입력 길이를 66-98% 줄이면서도 경쟁력 있는 성능을 달성했다. 특히 대규모 데이터베이스와 약어 등 값 검색이 어려운 상황에서 YORO의 성능이 두드러졌다.
統計資料
YORO의 평균 입력 길이는 Spider Dev 41토큰, KaggleDBQA 40토큰, BIRD Dev 47토큰으로 기존 방식보다 66-98% 짧다.
YORO는 LLaMA-7B 모델로 Spider Dev 74.2%, KaggleDBQA 34.2%, BIRD Dev 30.6%의 정확도를 달성했다.
YORO는 대규모 데이터베이스(90개 이상 컬럼)에서 Mistral-7B 모델로 31.6%의 정확도를 달성하여 기존 방식을 능가했다.
引述
"YORO 모델은 데이터베이스 스키마 정보 없이도 질문에 대한 SQL 쿼리를 생성할 수 있다."
"YORO는 기존 방식보다 입력 길이를 66-98% 줄이면서도 경쟁력 있는 성능을 달성했다."
"YORO는 대규모 데이터베이스와 약어 등 값 검색이 어려운 상황에서 특히 우수한 성능을 보였다."