이 논문은 인공지능 시스템, 특히 대형 언어 모델(LLM)의 종신 초정렬 달성과 관련된 과제를 검토한다. 초정렬은 초지능 인공지능 시스템이 인간의 가치와 목표에 부합하도록 보장하려는 이론적 틀이다. 그러나 저자들은 LLM의 고유한 한계로 인해 이를 달성하기 위해서는 현재 LLM 아키텍처에 상당한 변화가 필요하다고 주장한다.
논문은 LLM에 끊임없이 변화하는 인간 윤리와 글로벌 시나리오를 인코딩하는 과제의 어려움을 분석한다. 이를 위해 두 가지 사례 연구를 수행한다. 하나는 인간 가치관의 질적 변화를, 다른 하나는 정량적 변화를 보여준다. 이를 통해 LLM이 훈련 데이터에 제한되어 현대 인간 가치관과 시나리오에 정렬되지 못하는 문제를 드러낸다.
논문은 이러한 정렬 격차를 해결하고 완화하기 위한 잠재적 전략을 탐구하며, 더 적응력 있고 반응적인 인공지능 시스템을 향한 길을 제시한다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Gokul Puthum... lúc arxiv.org 03-25-2024
https://arxiv.org/pdf/2403.14683.pdfYêu cầu sâu hơn