GenARM 是一种测试时对齐方法,它利用自回归奖励模型来有效地引导冻结的大型语言模型,使其生成内容与人类偏好相一致,同时具有高效性和多目标对齐的优势。
本文提出了一種透過持續預訓練來增強大型語言模型數學推理能力的新方法,該方法基於一個包含數學相關網頁數據、模型生成代碼和教科書的大型數據集 (MathCode-Pile) 以及一種新穎的、從預訓練文本中提取數學推理步驟並將其轉換為相應代碼片段的方法。
GenARM은 자기회귀 보상 모델(Autoregressive RM)을 활용하여 테스트 시점에서 대규모 언어 모델(LLM)을 효율적으로 정렬하고, 기존 방식보다 뛰어난 성능과 효율성을 제공하며, 더 큰 모델을 정렬하기 위한 약-강(weak-to-strong) 지도 및 다중 목표 정렬을 가능하게 합니다.
본 논문에서는 수학적 추론 능력을 향상시키기 위해 대규모 언어 모델을 사전 훈련하는 새로운 방법을 제안하며, 이를 위해 수학 관련 웹 데이터, 수학 패키지를 사용하는 코드, 수학 교과서 및 합성 데이터를 포함하는 방대한 데이터 세트인 MathCode-Pile을 구축하고, 이를 활용하여 수학적 추론 단계와 이에 상응하는 Python 코드를 생성하여 모델을 훈련합니다.
大規模言語モデル(LLM)の出力と人間の好みを効率的に整合させるために、部分的な応答から次のトークンの報酬を予測する新しい報酬モデルである「自己回帰型報酬モデル」と、それを用いたテスト時アラインメント手法「GenARM」を提案する。
本論文では、数学関連のコードと自然言語による推論ステップを組み合わせた大規模データセット「MathCode-Pile」を構築し、大規模言語モデル(LLM)の数学的推論能力を大幅に向上させる、継続的な事前学習手法を提案しています。
This paper introduces MathCoder2, a family of large language models (LLMs) with enhanced mathematical reasoning abilities achieved through a novel continued pretraining method using model-translated mathematical code paired with natural language reasoning steps.
지식 그래프를 대규모 언어 모델에 통합하면 특히 추론이 필요한 개방형 질문 답변 시나리오에서 환각을 줄이고 신뢰성을 향상시킬 수 있습니다.
본 논문에서는 언어 모델(LM) 기반 학생 시뮬레이터를 활용하여 학생들의 글쓰기 수정 성과를 극대화하도록 설계된 자동 피드백 생성 시스템 PROF를 제안합니다.
본 논문에서는 대규모 언어 모델(LLM)의 수학적 추론 능력을 평가하기 위해 국제 수학 올림피아드 수준의 문제들로 구성된 새로운 벤치마크 Omni-MATH를 제시하고, 실험을 통해 최첨단 LLM 모델들도 여전히 어려움을 겪고 있음을 보여줍니다.