본 논문에서는 유니터리 등변성을 유지하면서도 더욱 다양한 함수를 사용할 수 있도록 피드포워드 유니터리 등변 신경망에 사용되는 활성화 함수의 일반화된 형태를 제안합니다.
본 논문에서는 딥러닝 모델의 학습 과정에서 발생하는 'dying ReLU' 문제를 완화하고, 추론 시간에 추가적인 계산 비용 없이 ReLU의 효율성을 유지하면서도 GELU와 같은 다른 활성화 함수와 비슷한 성능을 달성할 수 있는 새로운 활성화 함수인 HeLU(Hysteresis Rectified Linear Unit)를 제안합니다.
DIGRAF는 그래프 신경망(GNN)에서 그래프 데이터에 최적화된 새로운 활성화 함수로, CPAB 변환을 활용하여 그래프 구조에 따라 유연하게 적응하며 기존 활성화 함수보다 우수한 성능을 제공한다.
이 논문에서는 신경망에 새로운 레이어를 삽입하거나 기존 레이어에 뉴런을 추가할 때, 결과에 영향을 주지 않으면서 네트워크를 확장할 수 있는 새로운 유형의 활성화 함수를 제안합니다.
정규화를 사용하지 않는 대규모 언어 모델(LLM)에서 ReLU 활성화 함수가 GELU보다 성능이 뛰어나며, 이는 GELU가 초기 레이어에서 엔트로피 과부하를 일으켜 표현 용량을 저하시키기 때문이다.
본 논문에서는 데이터 불균형 문제를 해결하기 위해 데이터 분포에 따라 활성화 정도를 조절할 수 있는 새로운 활성화 함수인 APA(Adaptive Parametric Activation)를 제안합니다. APA는 기존 활성화 함수들을 단일 공식으로 통합하고, 학습 가능한 파라미터를 통해 균형/불균형 데이터 분포 모두에 적응하여 성능을 향상시킵니다.