이 연구는 LLM의 복잡한 구조화된 표 생성 능력을 평가하기 위한 STRUC-BENCH 벤치마크를 소개한다. 이 벤치마크는 텍스트 표, HTML 표, LaTeX 표 등 다양한 형식의 표를 포함하고 있다.
연구진은 기존 LLM 모델들(GPT-NeoX-20B, GPT-3.5, GPT-4, Vicuna-13B)을 STRUC-BENCH로 평가했다. 평가 결과, LLM 모델들은 복잡한 구조화된 표 생성에 어려움을 겪는 것으로 나타났다. 특히 내용의 정확성, 형식 준수, 수치 추론, 대규모 표 관리 등의 측면에서 한계를 보였다.
이에 연구진은 새로운 평가 지표인 P-Score와 H-Score를 제안했다. 이 지표들은 표의 내용과 형식을 모두 고려하여 LLM 성능을 더 정확하게 평가할 수 있다. 또한 구조 인식 파인튜닝 기법인 FORMATCOT를 제안하여 LLaMA-7B 모델의 성능을 크게 향상시켰다.
추가로 오류 유형 분석과 능력 맵 작성을 통해 LLM의 한계와 향후 개선 방향을 제시했다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Xiangru Tang... a las arxiv.org 04-08-2024
https://arxiv.org/pdf/2309.08963.pdfConsultas más profundas