מושגי ליבה
양자 회로 설계에서 강화 학습을 활용하기 위해서는 다양한 과제들을 해결해야 한다. 이 연구에서는 양자 회로 설계를 위한 강화 학습의 핵심 목표들을 정의하고, 이를 달성하기 위한 일반적인 강화 학습 프레임워크를 제안한다. 또한 현재 최첨단 강화 학습 알고리즘의 한계점을 벤치마크를 통해 보여준다.
תקציר
이 연구는 양자 회로 설계에서 강화 학습의 활용을 다룬다. 먼저 양자 컴퓨팅의 기본 개념과 강화 학습의 핵심 원리를 소개한다. 이어서 양자 회로 설계와 관련된 기존 연구들을 살펴본다.
핵심 목표로 상태 준비(SP)와 유니터리 합성(UC)을 정의한다. SP는 주어진 초기 상태에서 원하는 양자 상태를 생성하는 것이고, UC는 주어진 유니터리 변환을 구현하는 것이다. 각 목표에 대해 보상 함수와 구체적인 목표 상태/변환을 제시한다.
이를 위해 일반적인 강화 학습 프레임워크인 '양자 회로 설계자'를 제안한다. 이 환경에서 에이전트는 연속적으로 매개변수화된 양자 게이트를 선택하여 회로를 구축한다. 상태는 전체 복소 벡터 표현으로, 에이전트는 회로의 현재 상태를 관찰한다.
마지막으로 다양한 최첨단 강화 학습 알고리즘을 이 환경에 적용하여 벤치마크한다. 결과를 통해 현재 알고리즘들이 양자 회로 설계 과제에서 직면하는 주요 과제들을 확인할 수 있다. 이는 향후 연구 방향을 제시한다.
סטטיסטיקה
양자 회로 설계에서 강화 학습 알고리즘의 성능을 평가하기 위해 다음과 같은 지표를 사용하였다:
평균 보상: 에피소드 종료 시 누적된 보상의 평균
평균 큐비트: 에피소드 종료 시 사용된 큐비트 수의 평균
평균 깊이: 에피소드 종료 시 회로의 깊이 평균