Conceitos essenciais
다중 작업 학습은 특히 작업이 다양하고 관련성이 없더라도 단일 작업 학습과 비교하여 ReLU 신경망이 학습하는 함수의 특성을 크게 변화시킬 수 있으며, 다중 작업 솔루션과 커널 방법 간의 새로운 연결을 보여줍니다.
본 연구 논문에서는 ReLU 활성화 함수를 사용하는 얕은 신경망에서 다중 작업 학습이 미치는 영향을 심층적으로 분석하고 단일 작업 학습과의 비교를 통해 그 차이점을 명확히 밝힙니다. 또한, 다중 작업 학습 솔루션과 커널 방법 사이의 흥미로운 연관성을 제시합니다.
단일 변량 설정에서의 다중 작업 학습
단일 변량 입력 설정(d=1)에서 서로 다른 작업에 대해 학습된 다중 작업 신경망은 거의 항상 고유한 함수를 나타냄을 엄밀하게 증명합니다. 이 함수는 각 작업에 대해 연속적인 데이터 포인트를 직선 보간하여 연결하는 "점 연결" 보간을 수행합니다. 흥미롭게도 이 솔루션은 1차 Sobolev 공간 H1([x1, xN])에서 최소 노름 데이터 피팅 문제에 대한 해법과 일치하며, 이는 커널 k(x, x') = 1-(x-x')+ + (x-x1)+ + (x1-x')+와 연관된 RKHS입니다. 즉, T>1개 작업에 대한 (3)의 해의 개별 출력은 [x1, xN]에서 이 커널 솔루션과 거의 항상 일치합니다. 반면, T=1인 경우 (3)에 대한 최적 솔루션은 일반적으로 고유하지 않으며 점 연결 커널 솔루션과 일치하지 않을 수 있습니다.
다변량 설정에서의 다중 작업 학습
다변량 설정에서도 유사한 현상이 발생함을 보여주는 수학적 분석과 실험적 증거를 제시합니다. 특히, 작업의 수가 많고 다양할 경우, 다중 작업 학습에서 각 개별 작업에 대한 솔루션은 최적 뉴런에 의해 결정되는 특정 RKHS 공간에서의 최소 노름 솔루션과 유사합니다. 반면, 각 작업을 개별적으로 학습하면 최적 뉴런에 대한 비힐베르트 바나흐 노름과 관련하여 최소 노름인 솔루션이 생성됩니다.
본 연구는 다중 작업 학습이 단일 작업 학습과 비교하여 ReLU 신경망이 학습하는 함수의 특성을 크게 변화시킬 수 있음을 보여줍니다. 특히, 단일 변량 설정에서 다중 작업 학습은 거의 항상 고유한 "점 연결" 보간 솔루션으로 수렴하며, 이는 RKHS에서 최소 노름 데이터 피팅 문제에 대한 해법과 일치합니다. 또한, 다변량 설정에서도 유사한 결론이 도출될 수 있음을 시사하는 수학적 분석과 실험적 증거를 제시합니다. 이러한 결과는 다중 작업 학습과 커널 방법 간의 새로운 연결을 강조하며, 다중 작업 학습을 통해 신경망 솔루션의 특성을 더 깊이 이해할 수 있는 가능성을 제시합니다.