이 연구는 다중 과제 학습(MTL)의 기본 메커니즘에 대한 이해를 높이고자 한다. 저자들은 일반적으로 받아들여지는 MTL의 패러다임들에 도전한다.
최적화기 선택의 영향: MTL 벤치마크에서 일반적인 최적화기의 영향은 거의 고려되지 않았다. 저자들은 Adam 최적화기가 다양한 실험에서 SGD+momentum에 비해 우수한 성능을 보임을 실증적으로 보여준다. 또한 Adam의 부분적인 손실 스케일 불변성을 이론적으로 유도하여, 이것이 Adam의 효과성을 설명할 수 있음을 보인다.
과제 간 및 샘플 간 기울기 충돌: 기울기 충돌은 주로 과제 간 문제로 여겨져 왔다. 하지만 저자들은 과제 내 샘플 간 기울기 충돌이 과제 간 충돌만큼 또는 그 이상 심각할 수 있음을 실험적으로 보여준다. 이는 기울기 정렬 방법이 과제 간 충돌뿐만 아니라 샘플 간 충돌에도 적용될 수 있음을 시사한다.
특징의 전이성: MTL이 특징의 강건성을 높인다는 주장이 있지만, 실험 결과는 혼재되어 있다. 저자들은 MTL 및 STL 모델의 특징이 corrupted 데이터에 대해 어떤 성능을 보이는지 비교한다. 결과적으로 MTL 특징이 항상 더 강건한 것은 아니며, 과제, 네트워크 아키텍처, 데이터셋에 따라 다르게 나타난다.
전반적으로 이 연구는 MTL에 대한 이해를 높이고 향후 연구 방향을 제시한다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문