在有限的計算資源下,針對基於預訓練解碼器語言模型的文本嵌入模型,探討如何通過模型大小、數據量和微調方法的最佳組合,實現高效的對比性微調訓練。
Marco-o1 模型透過結合思維鏈微調、蒙地卡羅樹搜尋和創新的推理策略,提升大型語言模型處理複雜、真實世界問題的能力,特別是在缺乏明確標準和難以量化獎勵的開放式領域。
文章介紹了一種利用微調後的 BERT 嵌入技術構建輕量級安全防護欄的方法,用於過濾大型語言模型的不安全輸入,並與現有的大型模型相比,在保持性能的同時顯著降低了模型大小和延遲。
本文介紹了一個基於BERT遷移學習的俄語詞性標註模型,該模型在有限的數據集上取得了良好的標註效果,並具有跨語言應用的潛力。
本文介紹了一個名為 WORLDREP 的新型數據集,該數據集旨在利用大型語言模型 (LLM) 的先進推理能力,從新聞文章等文本信息中預測未來的國際事件,並解決現有數據集的局限性。
為了解決中國門診接待護士工作量過大的問題,該研究提出了一種基於大型語言模型的個性化智慧門診接待系統 (PIORS),並透過醫學情境模擬框架 (SFMSS) 生成模擬真實醫病互動的資料,以提升系統在真實環境中的效能。
利用大型語言模型和真實世界物流數據,可以有效地重寫異常地址,顯著提高物流系統的效率。
大型語言模型雖然功能強大,但其 Transformer 架構在處理長文本時效率低下,鍵值快取的引入雖然解決了效率問題,但卻帶來了記憶體開銷。本文綜述了各種優化大型語言模型鍵值快取記憶體使用的方法,涵蓋預訓練、部署和推理階段,並總結了這些方法的共性和差異,為構建更有效、高效和可持續的大型語言模型提供了見解。
這篇研究調查了提升大型語言模型(LLM)推理時效能的演算法,涵蓋了token層級生成演算法、元生成演算法以及提升生成效率的技術。
Sporo AraSum 是一種針對阿拉伯語臨床文件量身打造的語言模型,在處理醫療術語、語法和文化差異方面表現出色,超越了現有的阿拉伯語自然語言處理模型(如 JAIS),展現出在多語系醫療保健應用中的巨大潛力。