본 연구는 기업 데이터 세트에서 문서 재순위 지정 작업을 개선하기 위해 하드 네거티브 마이닝을 사용하여 기존 데이터를 보강하는 방법을 제안합니다.
검색 모델은 생성 모델과 달리 출처에서 실제 정보를 가져오고 검색 엔진은 검색된 각 항목의 출처를 나타냅니다. 이는 생성적 LLM의 존재에도 불구하고 특히 안정성이 중요한 맥락에서 정보 검색(IR)의 지속적인 중요성을 강조합니다. BERT(Devlin, Chang, Lee, Google, et al., 2019)가 출시된 후, 간단한 검색 후 재순위 지정 전략은 2019년 1월에 구절 검색을 위해 사전 훈련된 변환기를 활용하는 성공적인 수단으로 인기를 얻었습니다(Nogueira and Cho, 2019a). monoBERT로 알려진 이 모델은 나중에 검색을 위한 교차 인코더로 발전한 것의 초기 모습을 나타냅니다. 이 범주에는 MaxP(Dai and Callan, 2019), CEDR(MacAvaney et al., 2019a), Birch(Akkalyoncu Yilmaz et al., 2019), PARADE(Li et al., 2020)와 같은 재순위 지정 모델이 포함됩니다. 숙련된 순위 지정 알고리즘은 정보 검색 연구 내에서 수많은 다운스트림 작업에 대한 잠재적인 이점을 제공합니다(Han et al., 2020). BM25(Robertson and Walker, 1994)와 같은 기존 알고리즘은 용어 일치 메트릭에 크게 의존하여 쿼리와 문서가 동일한 용어를 공유하는 시나리오에 대한 효능을 제한합니다. 이러한 고유한 단점은 동일한 의미에도 불구하고 의미적 차이가 발생할 때 성능 저하로 이어집니다. 이는 어휘 불일치 문제로 알려져 있습니다. 사용자의 검색 의도를 이해하고 관련 항목을 검색하기 위해 순위 지정 알고리즘은 쿼리와 문서 간의 의미적 일치에 참여할 것으로 예상됩니다. 특히 의미 포착(표현 학습) 기술인 딥 러닝의 발전으로 인해 연구자들은 의미적 유사성 문제를 해결하기 위해 Dense Retrieval(DR) 모델을 점점 더 많이 사용하고 있습니다(Guu et al., 2020; Karpukhin et al., 2020; Luan et al., 2020). DR은 쿼리와 문서를 저차원 임베딩으로 변환하여 의미적 본질을 포착하는 데 탁월합니다. 이를 통해 효율적인 문서 색인 생성 및 유사성 검색이 가능하여 효과적인 온라인 순위 지정이 가능합니다. 연구에 따르면 다양한 정보 검색 작업에서 DR 모델에 대한 유망한 결과가 나타났습니다. (Guu et al., 2020; Qu et al., 2020) DR 모델에 대한 다양한 교육 전략을 사용한 과거 연구에서 고무적인 결과를 보여주었지만, 그들의 결과를 비교할 때 불일치, 심지어 모순이 발생합니다. 예를 들어, 무작위 부정적인 것보다 "하드 네거티브"(매우 유사하지만 관련 없는 문서)로 훈련하는 것의 우월성은 여전히 열린 질문입니다. 또한 많은 효과적인 교육 방법은 비효율성으로 인해 대규모 배포에 비실용적입니다. 유망한 결과에도 불구하고 DR은 주요 과제에 직면해 있으며, 우리는 특정 산업 맥락이 있는 사용자 지정 데이터에서 하드 네거티브 마이닝과 관련된 과제 중 하나를 조사하려고 합니다.
생성형 AI를 통합하기 위해 모든 조직은 자체 비공개 데이터 세트를 기반으로 구축된 사용자 지정 검색 시스템이 필요합니다. 검색 시스템은 엔터프라이즈 도메인 데이터 세트에 대해 학습되지 않은 경우 조직 맥락 내에서 정확하고 관련성 있는 결과를 제공하는 데 상당한 어려움을 겪습니다. 주요 문제 중 하나는 엔터프라이즈 도메인에 널리 퍼져 있는 특정 용어, 전문 용어 및 뉘앙스에 대한 친숙함이 부족하다는 것입니다.
본 연구의 주요 목표는 기업이 비공개 데이터 세트에서 최첨단 순위 지정/검색 모델을 미세 조정하는 데 도움이 되는 하드 네거티브 마이닝 전략을 제안하는 것입니다. 이러한 데이터 세트는 각 기업 고유하며 특수 용어와 도메인별 전문 용어가 포함될 수 있습니다. 따라서 교육 프로세스에 하드 네거티브를 통합함으로써 검색 모델을 연마하여 기업 데이터의 복잡성을 탐색하고 비즈니스의 특정 요구에 맞춰 조정된 정확하고 맥락적으로 관련성 있는 결과를 보장할 수 있습니다.
대규모 언어 모델(LLM)은 학습된 지식을 기반으로 질문에 답하는 데 탁월합니다. 그러나 교육 데이터에는 일반적으로 회사의 Confluence, Google Drive 또는 SharePoint와 같은 플랫폼에 저장된 최근 정보 및 특정 개인 정보가 포함되지 않습니다. 기업 환경 내에서 생성형 AI를 통합하기 위해 모든 조직은 자체 비공개 데이터 세트를 기반으로 구축된 사용자 지정 검색 시스템이 필요합니다. 검색 증강 시스템은 엔터프라이즈 도메인 데이터 세트에 대해 학습되지 않은 경우 조직 맥락 내에서 정확하고 관련성 있는 결과를 제공하는 데 상당한 어려움을 겪습니다. 주요 문제 중 하나는 엔터프라이즈 도메인에 널리 퍼져 있는 특정 용어, 전문 용어 및 뉘앙스에 대한 친숙함이 부족하다는 것입니다. 특히 엔터프라이즈 도메인 내에서 하드 네거티브로 검색/순위 지정 모델을 교육하는 것의 중요성은 아무리 강조해도 지나치지 않습니다. 본 연구는 사전 훈련된 순위 지정 모델과 도메인별 데이터 간의 차이를 해소합니다. 또한 주어진 쿼리, 문서 쌍에 대한 하드 네거티브를 포함하는 데이터 증강 기술을 제안합니다. 본 연구는 트리플릿 목적 함수를 다양한 NLP 애플리케이션에서 연구자들이 활용할 수 있음을 조사할 것입니다. 또한 내부 데이터 세트에 대한 순위 지정 모델을 평가하는 연구자가 사용하기에 적합한 수정된 평가 기준을 도입하는 것을 목표로 합니다.
본 연구에서는 하드 네거티브를 사용하여 데이터를 강화하고 문서 순위 지정 작업을 개선하기 위해 여러 모델을 사용합니다. 처음에는 여러 이중 인코더 모델을 사용하여 각 문서에 대한 다양한 임베딩을 생성합니다. 그런 다음 앙상블 기술을 사용하여 이러한 임베딩을 결합하여 각 문서에 대한 강력한 표현을 만듭니다. 임베딩 생성 후 이러한 임베딩을 기반으로 클러스터링이 수행됩니다. 유사성 메트릭을 사용하여 각 쿼리에 대한 추가 긍정 문서와 특히 어려운 하드 네거티브 문서를 식별합니다. 하드 네거티브로 풍부해진 이 증강 데이터 세트는 이후 교차 인코더 재순위 지정 모델을 학습하는 데 사용됩니다.
이중 인코더 모델은 자연어 처리(NLP)에서 문서 임베딩을 만드는 데 중추적인 역할을 합니다. 이러한 모델은 입력 텍스트(예: 쿼리 및 문서)를 공유 잠재 공간에서 고밀도 벡터 표현 또는 임베딩으로 독립적으로 인코딩합니다. 이 접근 방식은 효율적인 유사성 비교 및 검색 작업을 용이하게 합니다. 이중 인코더는 일반적으로 BERT(Devlin et al., 2019a), RoBERTa(Liu et al., 2019)와 같은 변환기 아키텍처를 기반으로 하는 두 개의 동일한 인코더 네트워크로 구성됩니다. 인코더는 가중치를 공유하여 임베딩이 호환되는 의미 공간에 상주하도록 합니다. 이는 쿼리와 문서 벡터 간의 관련성을 측정하는 데 필수적입니다.
임베딩 앙상블은 여러 임베딩 모델을 단일 모델로 결합하여 임베딩 모델의 성능을 향상시키는 데 사용되는 기술입니다. 이는 여러 모델의 출력을 평균화하거나 다음을 사용하는 것과 같이 여러 가지 방법으로 수행할 수 있습니다.
클러스터링 알고리즘은 유사한 특성을 기반으로 데이터 포인트를 그룹화하는 데 사용되는 기계 학습에서 필수적인 기술입니다. 이러한 알고리즘은 레이블이 지정되지 않은 데이터에서 패턴을 발견하고 데이터 포인트를 서로 다른 클러스터로 구성하여 유사한 포인트가 동일한 클러스터에 속하고 다른 포인트는 다른 클러스터에 속하도록 합니다. 클러스터링은 고객 세분화, 이상 탐지, 이미지 인식, 문서 분석 등 다양한 분야에서 애플리케이션을 찾습니다.
교차 인코더는 입력 쿼리와 문서를 공동으로 고려하여 관련성 점수를 생성하는 데 탁월합니다. 이러한 모델은 두 입력을 단일 시퀀스로 연결하고 사전 훈련된 변환기 모델(예: BERT, RoBERTa)을 사용하여 전체 시퀀스를 처리합니다. 교차 인코더는 쿼리와 문서 간의 상호 작용을 포착하여 더 풍부하고 컨텍스트에 인식되는 표현을 생성할 수 있습니다. 그러나 이러한 이점은 계산 비용이 더 많이 든다는 대가를 치르게 됩니다. 각 쿼리-문서 쌍에 대해 전체 변환기를 실행해야 하므로 특히 대규모 검색 시나리오에서 추론 시간이 길어집니다.
이 연구에서는 검색 기반 산업 애플리케이션(예: 검색 증강 생성(RAG))에서 사용되는 엔터프라이즈 데이터 세트에 대한 문서 순위 지정의 다운스트림 작업 결과를 제시합니다. 5.2절에서는 임베딩 앙상블과 클러스터링 기술을 사용하여 하드 네거티브를 선택한 결과를 다룹니다. 5.3절에서는 엔터프라이즈 데이터 세트에 대한 교차 인코더 기반 재순위 지정 모델 학습 결과를 제공합니다. 5.4절에서는 본 연구의 몇 가지 제한 사항에 대해 설명합니다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究