toplogo
Увійти

대규모 언어 모델의 추론 능력 향상을 위한 선호도 트리


Основні поняття
EURUS는 대규모 언어 모델의 추론 능력을 향상시키기 위해 개발된 모델 및 데이터셋이다. ULTRAINTERACT는 복잡한 추론 과제를 위해 특별히 설계된 대규모 고품질 정렬 데이터셋으로, 선호도 학습을 통해 EURUS 모델의 성능을 크게 향상시켰다.
Анотація

이 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 EURUS 모델과 ULTRAINTERACT 데이터셋을 소개한다.

EURUS는 Mistral-7B와 CodeLLaMA-70B를 기반으로 한 LLM 모델 제품군이다. EURUS 모델은 수학, 코딩, 논리 추론 등 다양한 벤치마크에서 최첨단 성능을 보여준다. 특히 EURUS-70B는 GPT-3.5 Turbo와 비슷한 수준의 추론 능력을 보여주며, LeetCode와 TheoremQA와 같은 어려운 벤치마크에서 기존 오픈소스 모델들을 크게 앞선다.

EURUS의 강력한 성능은 ULTRAINTERACT 데이터셋 덕분이다. ULTRAINTERACT는 복잡한 추론 과제를 위해 특별히 설계된 대규모 고품질 정렬 데이터셋이다. 각 지시문에 대해 ULTRAINTERACT는 (1) 다양한 계획 전략으로 구성된 추론 체인, (2) 환경 및 피드백과의 다중 턴 상호작용 궤적, (3) 선호도 학습을 위한 쌍대 데이터를 포함한다. ULTRAINTERACT를 통해 선호도 학습 기법을 심층 탐구한 결과, 기존 알고리즘 중 DPO는 추론 과제에 적합하지 않은 것으로 나타났다. 이를 바탕으로 새로운 보상 모델링 목적함수를 도출하였고, 이를 통해 EURUS-RM-7B 보상 모델을 개발하였다.

edit_icon

Налаштувати зведення

edit_icon

Переписати за допомогою ШІ

edit_icon

Згенерувати цитати

translate_icon

Перекласти джерело

visual_icon

Згенерувати інтелект-карту

visit_icon

Перейти до джерела

Статистика
총 85,918개의 지시문과 219,819개의 쌍대 데이터로 구성된 ULTRAINTERACT 데이터셋 EURUS-70B는 LeetCode에서 33.3%, TheoremQA에서 32.6%의 정확도를 달성하여 기존 오픈소스 모델들을 크게 앞섰다.
Цитати
"EURUS 모델은 다양한 복잡한 추론 벤치마크에서 오픈소스 모델 중 최고의 성능을 보여준다." "ULTRAINTERACT는 복잡한 추론 과제를 위해 특별히 설계된 대규모 고품질 정렬 데이터셋이다." "선호도 학습 기법 중 DPO는 추론 과제에 적합하지 않은 것으로 나타났다."

Ключові висновки, отримані з

by Lifan Yuan,G... о arxiv.org 04-03-2024

https://arxiv.org/pdf/2404.02078.pdf
Advancing LLM Reasoning Generalists with Preference Trees

Глибші Запити

추론 과제에서 선호도 학습의 효과를 높이기 위한 다른 방법은 무엇이 있을까?

추론 과제에서 선호도 학습의 효과를 높이기 위한 다른 방법으로는 다양한 보상 모델링 기법을 고려할 수 있습니다. 예를 들어, 보상 모델링의 목표를 조정하여 선택된 행동의 보상을 증가시키고 거부된 데이터의 보상을 감소시키는 새로운 목표를 도출할 수 있습니다. 또한, 다양한 보상 함수를 시도하고 보상의 절대값을 증가시키는 방향으로 모델을 훈련시키는 것도 효과적일 수 있습니다. 또한, 선호도 학습 알고리즘을 조정하거나 새로운 알고리즘을 개발하여 추론 작업에 더 적합한 방식으로 모델을 향상시킬 수 있습니다.

추론 과제에서 선호도 학습과 지도 학습의 장단점은 무엇인가?

선호도 학습과 지도 학습은 각각 장단점을 가지고 있습니다. 선호도 학습은 사람이나 AI의 선호도를 통해 모델을 향상시키는 데 효과적이지만, 데이터의 주관적인 성격으로 인해 학습 데이터의 품질에 영향을 받을 수 있습니다. 또한, 선호도 학습은 목표 함수를 명확히 정의하고 보상을 설계하는 데 시간과 노력이 필요할 수 있습니다. 반면, 지도 학습은 명확한 레이블된 데이터를 기반으로 모델을 훈련시키기 때문에 학습 과정이 상대적으로 간단하고 직관적일 수 있지만, 지도 학습은 사람의 주관적인 판단에 의존하지 않기 때문에 모델의 성능이 한정될 수 있습니다.

ULTRAINTERACT 데이터셋의 구축 과정에서 고려한 다른 요소들은 무엇이 있는가?

ULTRAINTERACT 데이터셋의 구축 과정에서 고려된 다른 요소들은 다음과 같습니다: 다양성: 다양한 추론 작업을 포함하여 데이터셋의 다양성을 확보하였습니다. 복잡성: 복잡한 문제를 해결하는 데 필요한 지침과 행동을 포함하여 데이터셋을 구성하였습니다. 품질: 데이터셋의 품질을 유지하기 위해 각 지침에 대한 선호도 트리를 구성하고 올바른 행동과 부정확한 행동을 짝지어 선호도 학습을 용이하게 하였습니다. 상호작용: 환경 및 비평자와의 다중 턴 상호작용을 통해 모델이 피드백을 받고 행동을 개선할 수 있도록 데이터를 수집하였습니다. 훈련 데이터 혼합: ULTRAINTERACT 데이터셋을 다른 정렬 데이터와 혼합하여 모델의 전반적인 지시 따르기 능력을 향상시키기 위해 노력하였습니다.
0
star