Grunnleggende konsepter
일본 생물의학 대형 언어 모델의 성능을 종합적으로 평가하기 위한 대규모 벤치마크 JMedBench를 제안한다. 이 벤치마크는 5가지 과제에 걸쳐 20개의 일본 생물의학 데이터셋과 8개의 대표적인 모델을 포함하고 있다.
Sammendrag
이 논문은 일본 생물의학 대형 언어 모델(LLM)의 성능을 종합적으로 평가하기 위한 벤치마크 JMedBench를 제안한다.
JMedBench는 다음과 같은 특징을 가지고 있다:
- 5가지 과제(다지선다형 질문 답변, 개체명 인식, 기계 번역, 문서 분류, 의미 텍스트 유사성)에 걸쳐 20개의 일본 생물의학 데이터셋을 포함한다.
- 일반 LLM, 일본어 LLM, 생물의학 LLM 등 8개의 대표적인 모델을 평가한다.
- 다양한 프롬프트 템플릿을 사용하여 모델의 강건성을 평가한다.
- 데이터셋 확장을 위해 영어 데이터를 고품질로 번역하여 활용한다.
실험 결과 분석을 통해 다음과 같은 통찰을 얻을 수 있었다:
- 일본어 이해도와 생물의학 지식이 풍부한 LLM이 일본 생물의학 과제에서 더 나은 성능을 보인다.
- 생물의학 도메인을 주로 설계하지 않은 LLM도 예상외로 잘 수행할 수 있다.
- 특정 일본 생물의학 과제에서는 기존 LLM의 성능 향상이 여전히 필요하다.
이 벤치마크와 평가 도구는 향후 연구를 촉진하기 위해 공개되어 있다.
Statistikk
일본 생물의학 MCQA 과제에서 Qwen2-7B 모델이 가장 높은 정확도(49.03%)를 달성했다.
일본 생물의학 NER 과제에서 MMed-Llama3-8B 모델이 가장 높은 F1 점수(61.14%)를 달성했다.
일본어-영어 기계 번역 과제에서 llm-jp-13B 모델이 가장 높은 BLEU 점수(28.45%)를 달성했다.
Sitater
"LLMs with a better understanding of Japanese and richer biomedical knowledge achieve better performance in Japanese biomedical tasks."
"LLMs that are not mainly designed for Japanese biomedical domains can still perform unexpectedly well."
"There is still much room for improving the existing LLMs in certain Japanese biomedical tasks."