Conceitos essenciais
생물의학 텍스트에서 개체명을 인식하는 LLM의 성능을 향상시키기 위해 관련 개념의 정의를 동적으로 제공하는 새로운 지식 보강 접근법을 제안한다.
Resumo
이 연구는 생물의학 개체명 인식(NER) 작업에서 대규모 언어 모델(LLM)의 성능을 향상시키기 위한 새로운 지식 보강 접근법을 제안한다.
- 실험 프레임워크 구축:
- 100개 이상의 생물의학 데이터셋에서 6개의 NER 데이터셋을 선별하여 벤치마크 테스트베드를 구축했다.
- 다양한 프롬프팅 전략을 탐색하여 제로샷 및 소수샷 설정에서 LLM의 성능을 평가했다.
- 정의 기반 보강 접근법:
- 관련 개념의 정의를 동적으로 제공하여 LLM이 초기 예측을 수정할 수 있도록 했다.
- 단일 턴 및 반복 프롬프팅 전략을 통해 정의 보강의 효과를 검증했다.
- 정의의 관련성과 출처에 대한 심층 분석을 수행했다.
- 실험 결과:
- 정의 보강 접근법은 GPT-4와 Llama 2에서 일관되고 상당한 성능 향상을 보였다.
- 특히 제로샷 설정에서 Llama 2와 GPT-4의 성능이 각각 평균 32.6%와 15% 향상되었다.
- 정의의 관련성과 출처가 성능 향상에 중요한 역할을 한다는 것을 확인했다.
이 연구는 생물의학 NER 작업에서 LLM의 성능을 향상시키기 위한 새로운 지식 보강 접근법을 제시하고, 관련 정의 지식의 중요성을 입증했다.
Estatísticas
생물의학 NER 작업에서 LLM의 성능이 일반적으로 낮은 이유는 전문 용어와 데이터 부족 때문이다.
GPT-4의 CDR 데이터셋 성능이 제로샷 70.92에서 정의 보강 후 76.19로 5.27 향상되었다.
GPT-4의 NCBI 데이터셋 성능이 제로샷 54.67에서 정의 보강 후 60.91로 6.24 향상되었다.
Llama 2의 MEDM 데이터셋 성능이 제로샷 25.98에서 정의 보강 후 35.56으로 9.58 향상되었다.
Llama 2의 CHIA 데이터셋 성능이 제로샷 4.24에서 정의 보강 후 9.50으로 5.26 향상되었다.
Citações
"생물의학 텍스트는 전문 용어를 사용하므로 해석하려면 도메인 전문성이 필요하다."
"라벨링된 데이터를 확보하기 어려워 시간과 비용이 많이 든다."
"정의 보강 접근법은 GPT-4와 Llama 2에서 일관되고 상당한 성능 향상을 보였다."