大型語言模型 (LLM) 的興起,為聊天機器人技術帶來了革命性的改變,使其應用擴展至教育、研究、醫療保健等領域,展現出巨大的潛力和應用前景,但也面臨著技術、倫理和濫用等方面的挑戰。
針對特定語言的持續預訓練能有效提升語言模型在該語言下的表現,尤其是在模型規模較小的情況下,但隨著模型規模增大,持續預訓練帶來的效益會逐漸減少。
本文透過分析隱藏狀態中編碼的位置信息,特別是位置向量的形成和影響,深入探討了大型語言模型(LLM)在上下文窗口內外的運作機制,並基於此提出了兩種無需訓練的上下文窗口擴展方法。
本文介紹了一種名為雙曼巴 (Bi-Mamba) 的新型模型架構,透過將模型權重二元化,成功地將曼巴 (Mamba) 架構壓縮至一位元表示,同時維持與全精度模型相當的效能,顯著降低了模型儲存空間和計算成本。
自然語言處理,特別是生成式預訓練 Transformer 模型,顯示出從醫療保健科學文獻中提取知識(例如自動生成摘要)的潛力,但仍存在局限性,需要進一步的研究和評估策略。
大型語言模型在問答系統中可能會過度依賴參數化知識,而忽略輸入的上下文資訊,導致產生與上下文不符的幻覺答案。文章提出使用提示微調技術,引導模型關注上下文資訊,從而減輕知識衝突,提高答案的準確性和一致性。
該文提出了一種輕量級、目標導向的數據管道(LP Data Pipeline),旨在利用 CPU 資源高效構建用於訓練大型語言模型的高質量數據集,並可針對特定領域和語言進行定制。
本文介紹了兩個從零開始訓練的德語語言模型 LLäMmlein 120M 和 1B,並探討其在各種基準測試中的表現,強調專用於特定語言的語言模型開發的重要性。
大型語言模型 (LLM) 雖然功能強大,但其訓練數據中存在的偏見會導致輸出結果不公平,因此需要全面評估和積極緩解策略來確保其公平性和可靠性。
此研究探討利用大型語言模型 (LLM) 自動化科學文獻中的統合分析,並提出了一種新穎的方法,透過在大量科學數據集上微調 LLM 來應對大數據處理和結構化數據提取的挑戰。