핵심 개념
본 논문에서는 방송 뉴스에서 질문 답변 쌍 데이터 세트를 수집하고 이를 활용하여 사전 훈련된 대규모 언어 모델을 미세 조정하여 뉴스 관련 질문에 대한 정확하고 검증 가능한 답변을 생성하는 방법을 제시합니다.
초록
뉴스 리포터: 다국어 방송 뉴스용 대규모 언어 모델 프레임워크
본 연구 논문에서는 방송 TV 뉴스를 위해 특별히 설계된 다국어 대규모 언어 모델(LLM) 프레임워크인 "뉴스 리포터"를 소개합니다. 저자들은 기존 LLM이 일반 및 합성 데이터 세트로 훈련되어 뉴스 관련 질문에 대한 정확하고 검증 가능한 답변을 제공하는 데 필요한 검증 능력이 부족하다는 점을 지적합니다. 이러한 문제를 해결하기 위해 미국 여러 뉴스 채널의 뉴스 기록에서 추출한 질문-답변 쌍의 대규모 데이터 세트를 수집하고 공유합니다. 수집된 데이터 세트는 사전 훈련된 LLM을 미세 조정하는 데 사용되어 방송 TV 뉴스에 적합한 최초의 LLM인 "뉴스 리포터-3B"를 만들었습니다.
연구팀은 UCLA 뉴스 아카이브에서 1년 분량의 방송 뉴스 녹취록을 수집하여 CNN, MSNBC, FOX 뉴스, BBC, 알 자지라 등 다양한 뉴스 채널을 포함했습니다. 이 데이터 세트는 영어, 프랑스어, 스페인어, 독일어, 포르투갈어로 구성되어 뉴스 미디어의 글로벌 특성을 반영합니다. 연구팀은 셀프 인스트럭트 기능을 사용하여 클라우드 LLM 서비스 제공업체를 통해 녹취록에서 약 64,000개의 질문-답변 쌍을 자동으로 추출했습니다.
미세 조정을 위해 Phi-3-mini-4K 모델을 기본 모델로 선택했습니다. 이 모델은 다국어 쿼리 이해 및 응답 생성에 가장 적합한 것으로 나타났습니다. 연구팀은 교차 엔트로피 손실을 사용하여 질문-답변 쌍을 사용하여 모델을 미세 조정하고 QLoRA 어댑터를 사용하여 매개변수 효율적인 미세 조정을 수행했습니다. 또한 더 나은 컨텍스트화를 위해 11개월 분량의 뉴스 컨텍스트를 사용하여 학습된 벡터DB를 사용하여 검색 증강 생성(RAG) 파이프라인을 개발했습니다.