대규모 언어 모델 평가

Увійти

ідея - 대규모 언어 모델 평가

효율적인 대규모 언어 모델 비교 평가: 쌍별 비교를 위한 PoE(Product of Experts) 프레임워크

본 논문에서는 쌍별 비교를 사용한 대규모 언어 모델 평가 시 발생하는 계산 비용 문제를 해결하기 위해 PoE(Product of Experts) 프레임워크를 제안합니다.

대규모 언어 모델의 형태 및 의미에 대한 내부 표현: 심리언어학적 및 신경언어학적 평가 비교

대규모 언어 모델은 언어의 형태(문법) 학습에는 탁월하지만 의미 학습에는 한계를 보이며, 의미 이해는 형태에 대한 통계적 연관성에 크게 의존한다.

대규모 언어 모델의 어휘 및 의미적 견고성 평가를 위한 집합 연산 활용: SetLexSem Challenge 소개

대규모 언어 모델(LLM)의 견고성을 평가하기 위해 집합 연산을 활용한 새로운 벤치마크인 SetLexSem Challenge를 소개합니다. 본 연구는 LLM이 집합 연산 작업 수행 시 어휘 및 의미적 변형에 취약하며, 특히 "deceptive" 집합에서 고유한 실패 모드를 보인다는 것을 발견했습니다.

천문학 퀴즈 대결: 어떤 대규모 언어 모델이 승리할까?

본 논문에서는 천문학 분야에 특화된 최초의 벤치마킹 데이터 세트를 사용하여 독점 및 오픈 가중치 대규모 언어 모델(LLM)에 대한 포괄적인 평가를 제시합니다.

관계 네트워크 기반 대규모 언어 모델 평가 방법론: RoCar 소개

본 논문에서는 사회 관계 네트워크 그래프를 기반으로 대규모 언어 모델(LLM)의 추론 능력과 메모리 능력을 평가하는 RoCar라는 새로운 방법론을 제안합니다.

중국어 대규모 언어 모델의 사실성 평가를 위한 벤치마크, Chinese SimpleQA

본 논문에서는 중국어 대규모 언어 모델(LLM)의 사실성을 평가하기 위해 새롭게 개발된 벤치마크인 Chinese SimpleQA를 소개합니다.

긴 맥락 시나리오에서 대규모 언어 모델의 명령어 수행 성능 및 안정성 평가: LIFBench 벤치마크 소개

LIFBench는 대규모 언어 모델(LLM)의 긴 맥락에서의 명령어 수행 능력과 안정성을 평가하기 위해 특별히 설계된 벤치마크 및 평가 프레임워크입니다.

저자원 언어 이해를 위한 대규모 언어 모델 평가 과제: ProverbEval 소개 및 분석

저자원 언어에 대한 대규모 언어 모델의 이해도를 정확하게 평가하기 위해서는 문화적 뉘앙스를 포함한 벤치마크 데이터셋과 다양한 과제 유형이 필요하다.

인간 가치를 준수하는 대규모 언어 모델 평가: ALI-Agent 프레임워크 소개 및 실험 결과

본 논문에서는 대규모 언어 모델(LLM)이 인간의 가치에 얼마나 잘 부합하는지 평가하는 새로운 에이전트 기반 프레임워크인 ALI-Agent를 제안합니다. ALI-Agent는 자율 에이전트를 활용하여 현실적인 테스트 시나리오를 생성하고, 모델의 응답을 평가하며, 잠재적 위험을 심층적으로 평가하기 위해 시나리오를 반복적으로 개선합니다.

과학 연구를 위한 다단계 대규모 언어 모델 평가 벤치마크: SciEval

SciEval은 과학 연구 분야에서 대규모 언어 모델(LLM)의 능력을 평가하기 위해 특별히 고안된 새로운 벤치마크입니다.

Про нас

Продукти

Ресурси