연합학습은 자율주행 분야에서 데이터 저장 비용 감소, 대역폭 요구 감소, 학습 가속화 등의 잠재력을 가지고 있지만, 독극물 공격에 취약하다. 본 논문에서는 회귀 작업을 위한 두 가지 새로운 독극물 공격, FLStealth와 Off-Track Attack(OTA)를 소개하고, 이를 통해 연합학습 시스템의 취약성을 강조한다.
보조 데이터를 활용하여 인간 상호작용 강화학습 알고리즘의 피드백 효율성을 향상시킬 수 있다.
AI 시스템은 인간의 편향을 보정하여 협력적 의사결정을 향상시킬 수 있다.
특허 가치 평가 지표 시스템 구축 및 특허 가치 예측 모델 개발을 통해 특허 금융 기관에 과학적으로 신뢰할 수 있는 특허 가치 평가 기준을 제공한다.
인공지능 시스템의 내부 작동 원리를 이해하는 것은 가치 정렬과 안전을 보장하는 데 매우 중요하다. 이 리뷰는 기계론적 해석가능성이라는 접근법을 탐구하며, 이는 신경망의 계산 메커니즘과 표현을 인간이 이해할 수 있는 알고리즘과 개념으로 역공학하여 세부적이고 인과적인 이해를 제공한다.
저품질 데이터에서도 우수한 성능을 보이는 제로샷 강화학습 알고리즘을 제안한다.
사람의 피드백을 활용한 강화학습(RLHF)은 대규모 언어 모델의 성능 향상을 위한 핵심 기술이지만, 보상 모델 설계와 강화학습 알고리즘 선택 등 근본적인 한계가 존재한다.
재현 커널 힐버트 공간에 정의된 함수들을 두 개의 은닉층을 가진 tanh 신경망으로 임의의 정확도로 근사할 수 있다.
저차원 적응(LoRA)은 사전 학습된 모델을 효율적으로 미세 조정하여 대상 모델을 정확하게 표현할 수 있다.
확산 모델의 경로적분 표현을 통해 확률론적 및 결정론적 샘플링 방식 간의 성능 차이를 설명할 수 있다.