본 논문은 강화 학습 기반의 RL-MUL 프레임워크를 제안하여 곱셈기 설계를 최적화한다. 행렬 및 텐서 표현을 활용하여 합성곱 신경망을 에이전트 네트워크로 통합하고, 면적과 지연 간의 트레이드오프를 고려하는 파레토 기반 보상 함수를 설계한다. 이를 통해 에이전트가 파레토 최적 곱셈기 구조를 학습할 수 있다.