지식 그래프를 대규모 언어 모델에 통합하면 특히 추론이 필요한 개방형 질문 답변 시나리오에서 환각을 줄이고 신뢰성을 향상시킬 수 있습니다.
본 논문에서는 언어 모델(LM) 기반 학생 시뮬레이터를 활용하여 학생들의 글쓰기 수정 성과를 극대화하도록 설계된 자동 피드백 생성 시스템 PROF를 제안합니다.
본 논문에서는 대규모 언어 모델(LLM)의 수학적 추론 능력을 평가하기 위해 국제 수학 올림피아드 수준의 문제들로 구성된 새로운 벤치마크 Omni-MATH를 제시하고, 실험을 통해 최첨단 LLM 모델들도 여전히 어려움을 겪고 있음을 보여줍니다.
最新の言語モデルは従来の数学的推論ベンチマークではもはや十分に評価できないレベルに達しており、より難易度の高いオリンピックレベルの数学問題に特化したベンチマークと評価手法が必要とされている。
본 논문에서는 대규모 언어 모델(LLM)의 계획 능력을 평가하기 위해 다양한 2D 그리드 기반 게임 맵으로 구성된 벤치마크인 GameTraversalBenchmark(GTB)를 제안하고, GTB에서 여러 LLM을 평가한 결과 GPT-4-Turbo가 가장 높은 점수를 달성했지만 여전히 50%에 미치지 못하여 현재 모델의 계획 능력에 대한 개선의 여지가 있음을 시사합니다.
本稿では、大規模言語モデル(LLM)の計画能力を評価するための新しいベンチマークであるGameTraversalBenchmark(GTB)を紹介する。GTBは、LLMが2Dグリッドベースのゲームマップ内を効率的に移動し、目標を達成できるかどうかを評価する。
Large language models (LLMs) struggle with planning tasks, as demonstrated by their performance on the GameTraversalBenchmark (GTB), which evaluates their ability to navigate 2D game maps, highlighting the need for further research to improve their planning capabilities.
LLM의 도구 학습 성능을 향상하기 위해 단계별 보상과 최적화를 활용하는 강화 학습 프레임워크인 StepTool을 소개합니다.
大規模言語モデル(LLM)のツール学習における課題を克服するため、段階的強化学習フレームワークであるStepToolが提案され、段階的な報酬設計と最適化を通じて、複雑な複数ステップのタスク解決におけるLLMのパフォーマンスが大幅に向上しました。
TurboRAG 通過預先計算和儲存文件區塊的 KV 快取,並在線上推理過程中直接檢索使用,從而顯著減少了 RAG 模型的推理延遲和計算開銷,同時保持了與標準 RAG 模型相當的效能。