Core Concepts
심층 강화 학습을 이용하여 FPGA 배치 문제를 해결하고, 대규모 검색 공간을 다루기 위해 분할 정복 접근 방식을 제안한다.
Abstract
이 논문은 FPGA 배치 문제를 마르코프 의사 결정 프로세스(MDP)로 정식화하고 강화 학습(RL) 알고리즘을 사용하여 배치 정책을 학습하는 방법을 소개한다. 대규모 검색 공간과 희소한 보상으로 인한 어려움을 해결하기 위해 분할 정복 접근 방식을 제안한다.
주요 내용은 다음과 같다:
FPGA 배치 문제를 MDP로 정의하고 상태, 행동, 보상, 상태 전이를 설계한다.
보드 레이아웃 정보와 네트리스트 그래프를 결합한 상태 표현을 제안한다.
근접 정책 최적화(PPO) 알고리즘을 사용하여 배치 정책을 학습한다.
대규모 검색 공간 문제를 해결하기 위해 분할 정복 접근 방식을 제안한다. 전체 배치 문제를 더 작은 하위 문제로 분해하고, 각 하위 문제에 대해 RL 에이전트를 학습시킨다.
다양한 실험을 통해 분할 정복 접근 방식의 효과를 검증한다.
Stats
배치할 블록 수가 증가할수록 검색 공간이 지수적으로 늘어나 RL 에이전트가 최적 해에 수렴하기 어려워진다.
30개 블록 배치 시 분할 정복 접근 방식의 평균 와이어 길이는 6795±160이며, 최고 성능은 6546이다.
56개 블록 배치 시 분할 정복 접근 방식의 평균 와이어 길이는 7169±90이며, 최고 성능은 6950이다.
Quotes
"대규모 검색 공간과 희소한 보상으로 인해 RL 에이전트가 유익한 행동을 식별하고 강화하기 어려워진다."
"분할 정복 접근 방식은 에이전트가 더 작은 검색 공간에서 효과적으로 탐색할 수 있게 해준다."