핵심 개념
TEXTMACHINA는 기계 생성 텍스트 탐지, 귀속, 경계 감지 및 혼합 탐지와 같은 다양한 작업을 위한 고품질 데이터셋을 생성하는 모듈식 및 확장 가능한 Python 프레임워크입니다.
초록
TEXTMACHINA는 기계 생성 텍스트(MGT) 관련 작업을 위한 고품질 데이터셋을 생성하는 포괄적인 파이프라인을 제공합니다. 이 프레임워크는 다음과 같은 주요 기능을 제공합니다:
다양한 MGT 관련 작업을 위한 데이터셋 생성기: 탐지, 귀속, 경계 감지 및 혼합 탐지 등의 작업을 지원합니다.
다양한 언어 모델 제공업체와의 통합: Anthropic, Cohere, OpenAI, Azure OpenAI, Google Vertex AI, Amazon Bedrock 등의 모델을 지원합니다.
사용자 친화적인 정보 추출기: 제목, 요약, 개체, 문장 등 다양한 유형의 정보를 인간 텍스트에서 추출하여 프롬프트를 생성할 수 있습니다.
생성 매개변수 제어 기능: 길이, 다양성 등의 제약 조건을 자동으로 추론하여 적용할 수 있습니다.
편향 완화 기능: 언어, 구조, 주제, 길이 등의 편향을 완화하는 다양한 후처리 기능을 제공합니다.
대화형 탐색 모드: 생성된 데이터셋의 품질과 작업 난이도를 신속하게 평가할 수 있습니다.
TEXTMACHINA는 이미 AuTexTification 및 IberAuTexTification 공동 작업에서 사용되어 100개 이상의 팀이 참여하는 등 실제 사용 사례가 입증되었습니다.
통계
기계 생성 텍스트와 인간 텍스트의 길이 분포가 유사하도록 트렁케이션 알고리즘을 적용합니다.
언어 식별 모델을 사용하여 인간 텍스트와 다른 언어의 기계 생성 텍스트를 제거합니다.
특수 토큰(BOS, PAD, EOS 등)과 공개 패턴("As an AI, ...")을 제거하여 공개 편향을 완화합니다.
인용구
"TEXTMACHINA는 기계 생성 텍스트 관련 작업을 위한 고품질 데이터셋을 생성하는 포괄적인 파이프라인을 제공합니다."
"TEXTMACHINA는 다양한 언어 모델 제공업체와 통합되어 있어 새로운 모델을 쉽게 활용할 수 있습니다."
"TEXTMACHINA는 편향 완화를 위한 다양한 후처리 기능을 제공하여 현실적이고 견고한 데이터셋을 생성할 수 있습니다."