핵심 개념
프롬프트 강화와 교차 일관성을 통해 현재 LLM 기반 텍스트-SQL 시스템의 성능을 향상시킨다.
초록
이 논문은 프롬프트 강화와 교차 일관성을 통해 현재 LLM 기반 텍스트-SQL 시스템의 성능을 향상시키는 PET-SQL 프레임워크를 제안한다.
첫째, 참조 강화 프롬프트(REp)를 도입하여 스키마 정보와 테이블 셀 값을 포함시켜 LLM의 SQL 쿼리 생성을 돕는다.
둘째, 질문-SQL 쌍을 검색하여 LLM에 대한 few-shot 데모로 활용하고, 생성된 PreSQL을 바탕으로 스키마 링킹을 수행한다. 이를 통해 프롬프트의 스키마 정보를 간소화하여 FinSQL을 생성한다.
셋째, 서로 다른 LLM 간 교차 일관성을 활용하여 최종 SQL 쿼리를 예측한다. 이는 단일 LLM의 자기 일관성보다 더 효과적이다.
실험 결과, PET-SQL은 Spider 벤치마크에서 87.6%의 실행 정확도를 달성하여 현재 최고 성능을 보인다.
통계
데이터베이스에는 singer 테이블(Singer_ID, Name, Country, Song_Name, Song_release_year, Age, Is_male)과 singer_in_concert 테이블(concert_ID, Singer_ID)이 있다.
singer 테이블에는 Singer_ID가 1, 2, 3이고 Name이 Joe, Timbaland, Justin Brown이며, Country가 Netherlands, United States, France, Song_Name이 You, Dangerous, Hey Oh, Song_release_year가 1992, 2008, 2013, Age가 52, 32, 29, Is_male이 F, T, T인 데이터가 있다.
singer_in_concert 테이블에는 concert_ID가 1, 1, 1이고 Singer_ID가 2, 3, 5인 데이터가 있다.