비전문가 LLM 사용자를 위해 파인튜닝, 검색 보조 생성 및 소프트 프롬팅 기법의 기본 성능을 비교 평가하였다.
개인정보 보호 연합 학습 환경에서 LoRA의 성능 저하 문제를 해결하기 위해 FFA-LoRA를 제안하였다. FFA-LoRA는 데이터 이질성, 노이즈 증폭, 하이퍼파라미터 의존성 등의 문제를 완화하여 LoRA보다 일관된 성능을 보이며 계산 및 통신 효율성도 향상시켰다.
JORA는 JAX의 텐서 병렬 처리와 LoRA 기술을 활용하여 검색 증강 미세 조정 작업의 메모리 사용량과 계산 속도를 크게 향상시킨다.
변환기는 가중 유한 자동 기계(WFA)와 가중 트리 자동 기계(WTA)를 효율적으로 시뮬레이션할 수 있다.
SMART는 하위 모듈러 함수를 활용하여 과제 중요도 점수를 할당하고, 이를 바탕으로 과제 혼합 가중치와 각 과제에서 중복되지 않는 샘플을 선택하는 새로운 데이터 혼합 전략이다.
선택적 합리화 모델은 데이터 내 단축 경로를 활용하여 예측 결과를 도출하고 설명을 생성하는 문제가 있다. 본 연구에서는 이를 해결하기 위해 단축 경로를 발견하고 활용하는 방법을 제안한다.
본 논문은 데이터 내 단축 경로를 발견하고 활용하여 선택적 합리화 성능을 향상시키는 방법을 제안한다.
비용 효율적이고 자기 적응적인 LLM 흔들기 및 복구 메커니즘인 CypherTalk을 제안합니다. 이를 통해 암호화 기반 또는 차등 프라이버시 기반 방법과 유사한 정확도 결과를 달성할 수 있습니다.
다음 토큰 예측(NTP) 모델 학습 시, 경사 하강법 최적화 과정에서 나타나는 내재된 편향의 특성을 분석하였다. 과대 매개변수화 환경에서 NTP 데이터가 만족하는 선형 분리 가능 조건을 규명하고, 이에 따른 최적화 경로의 수렴 특성을 밝혔다.
언어 모델을 활용하여 경쟁력 있는 인간 예측자 수준의 예측 성능을 달성할 수 있다.