Conceptos Básicos
LLMChain은 자동 평가와 사용자 피드백을 결합하여 대규모 언어 모델의 행동을 정확하게 반영하는 상황별 평판 점수를 할당함으로써 사용자의 신뢰와 만족도를 효과적이고 투명하게 평가한다.
Resumen
LLMChain은 대규모 언어 모델(LLM)의 신뢰성과 역량을 평가하기 위한 새로운 평판 기반 모델을 제안한다. 이 모델은 자동 평가와 사용자 피드백을 결합하여 LLM의 행동을 정확하게 반영하는 상황별 평판 점수를 할당한다.
LLMChain은 사용자와 기관이 특정 요구사항에 가장 적합한 LLM을 식별할 수 있도록 돕는다. 또한 LLM 개발자에게 모델을 개선하고 보완할 수 있는 귀중한 정보를 제공한다.
LLMChain의 핵심 구성요소는 다음과 같다:
사용자 레이어: 다양한 전문 분야의 개인 참여자로 구성된다. 사용자는 공유된 LLM을 사용하고 피드백을 제공할 수 있다.
블록체인 레이어: 허가된 블록체인 네트워크로, LLM 제공업체와 개발자가 참여한다. 스마트 계약을 통해 LLM 공유, 자동 평가, 사용자 피드백 등의 핵심 기능을 수행한다.
오라클 레이어: 온-체인 코드와 오프-체인 인프라를 연결하여 자동 평가 프로세스를 수행한다.
LLM 레이어: LLM 제공업체와 개발자가 로컬에서 관리하는 언어 모델들로 구성된다.
LLMChain의 평판 모델은 자동 평가와 사용자 피드백을 결합하여 LLM의 행동을 정확하게 반영하는 상황별 평판 점수를 할당한다. 자동 평가는 임베딩 기반 메트릭을 사용하여 응답의 의미적 관련성을 측정한다. 사용자 피드백은 응답의 신뢰성, 완성도, 유용성 등을 평가하는 다항목 척도 설문지를 활용한다.
실험 결과, LLMChain은 효과적이고 확장 가능한 LLM 평가 프레임워크임을 입증했다. 자동 평가와 사용자 피드백 모두 LLM의 성능을 정확하게 반영하며, 블록체인 기반 구현은 높은 처리량과 낮은 지연 시간을 달성했다.
Estadísticas
제안된 LLMChain 프레임워크는 7개의 오픈소스 LLM을 평가하기 위해 100,000개 이상의 질문과 답변으로 구성된 LLMGooAQ 데이터셋을 활용했다.
BARTScore 자동 평가 메트릭은 "Vicuna-13b" 모델이 다른 모델들을 약 90%의 문맥에서 능가한다는 것을 보여주었다.
"Vicuna-13b" 모델의 답변을 기준으로 한 BARTScore 기반 쌍대 비교 결과는 실제 답변과 70%의 정확도를 보였다.
Citas
"LLMChain은 자동 평가와 사용자 피드백을 결합하여 LLM의 행동을 정확하게 반영하는 상황별 평판 점수를 할당함으로써 사용자의 신뢰와 만족도를 효과적이고 투명하게 평가한다."
"LLMChain은 사용자와 기관이 특정 요구사항에 가장 적합한 LLM을 식별할 수 있도록 돕고, LLM 개발자에게 모델을 개선하고 보완할 수 있는 귀중한 정보를 제공한다."