本文提出了一種名為 TRACE 的基準測試和一種名為 IOPO 的對齊方法,旨在增強大型語言模型遵循複雜指令的能力。
本文提出了一種新的數據生成技術——約束回譯,用於改進大型語言模型在遵循包含複雜約束指令方面的能力,並通過構建一個高質量的複雜指令遵循數據集 CRAB,驗證了該方法的有效性。
大型語言模型 (LLM) 在遵循包含多重約束的複雜指令方面表現不佳,本文提出了一種名為「分割-驗證-精煉」(DVR) 的新框架來解決這個問題。