대규모 언어 모델(LLM)은 기본적인 감정 인식 능력을 보유하고 있지만, 정확성과 일관성에 있어 상당한 차이가 존재한다. 이는 모델 학습 과정에서 미묘한 감정 단서를 더 잘 포착할 수 있도록 개선이 필요함을 시사한다.
트리비아 문제 답변 인공지능 모델의 성능을 높이기 위해 인간이 작성한 어려운 트리비아 문제를 수집하는 인터페이스를 개발하였다.
최신 딥러닝 기술로 생성된 기계 생성 콘텐츠와 사용자 생성 콘텐츠 간의 차이를 다양한 데이터셋을 통해 분석하고, 전통적인 기계 학습 알고리즘의 우수한 성능을 확인하였다.
혼합 선호 최적화(MPO)는 강화 학습(RLHF)과 대조 학습 기반 방법(DPO)의 장점을 결합하고 단점을 완화하는 새로운 정렬 방법이다.