大型語言模型應該學會在特定情境下拒絕不適當的使用者請求,以確保安全性和避免傳播錯誤資訊,這需要新的分類法、評估方法和訓練策略。
챗 기반 언어 모델이 모든 사용자 요청에 무조건 응답하는 것이 아니라, 맥락에 따라 적절하게 거부하는 것이 중요하며, 본 논문에서는 이러한 맥락적 비순응성을 위한 분류 체계, 평가 데이터셋, 학습 전략을 제시한다.
本稿では、チャットベースの言語モデルが、安全性の観点だけでなく、ユーザー体験と信頼を損なう可能性のある、広範囲な状況において、要求に対して適切に拒否反応を示せるようにすることを提案する。
現有的評估工具與真實世界情境存在顯著差距,因此作者提出了 GTA,這是一個針對真實世界工具代理的基準測試,旨在評估大型語言模型在真實世界情境中使用工具的能力。
Language models need to be trained to identify and appropriately refuse a broad range of user requests, beyond just those deemed unsafe, to improve user experience and trust.
본 논문에서는 실제 사용자 쿼리, 실제 배포된 도구 및 실제 멀티모달 입력을 특징으로 하는 범용 도구 에이전트(GTA)용 벤치마크를 제안하고, 이를 통해 주요 LLM의 실제 환경에서의 문제 해결 능력을 평가합니다.
現実世界のタスクを解決するために大規模言語モデル(LLM)を様々なツールと統合することの重要性が高まっているが、既存のLLMのツール活用能力は、実際のシナリオに十分に対応できるレベルに達していない。
Existing large language models (LLMs) struggle to effectively utilize tools in complex, real-world scenarios, highlighting the need for more robust benchmarks and evaluation metrics for tool-augmented LLMs.
AdaZeta 框架透過結合快速張量化適配器和自適應查詢排程,顯著提高了零階微調大型語言模型的性能和收斂性,有效解決了傳統方法的記憶體效率和散度問題。
AdaZeta 프레임워크는 텐서 트레인 분해를 통해 매개변수 효율성을 높이고 적응형 쿼리 일정을 통해 수렴성을 개선하여 제로차 미세 조정의 정확성과 효율성을 향상시킵니다.