참고 문헌: Ahmadi, S., Paugam, F., Glatard, T., Bellec, P. L. (2024). Training Compute-Optimal Vision Transformers for Brain Encoding. arXiv preprint arXiv:2410.19810v1.
연구 목적: 본 연구는 뇌 인코딩 작업에서 비전 트랜스포머의 최적화를 위해 데이터셋 크기, 모델 크기, 고성능 컴퓨팅의 영향을 조사하는 것을 목표로 한다.
방법: 연구팀은 10시간 분량의 fMRI 데이터와 이에 상응하는 비디오 게임 플레이 영상으로 구성된 Shinobi 데이터셋을 사용하여 VideoGPT 모델을 훈련했다. 뇌 활동 예측에는 Ridge 회귀 모델을 사용했다. 데이터셋 크기(10k, 100k, 1M, 6M), GPT-2 모델 구성(히든 레이어 크기, 레이어 수, 어텐션 헤드 수), 부동 소수점 정밀도(32비트, 16비트)를 변화시키면서 실험을 진행했다.
주요 결과:
주요 결론:
의의: 본 연구는 뇌 인코딩을 위한 계산적으로 최적화된 비전 트랜스포머를 훈련하는 데 중요한 정보를 제공한다. 특히, 대규모 데이터셋의 중요성과 모델 복잡성과 정밀도 간의 균형을 강조한다.
제한 사항 및 향후 연구:
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Sana Ahmadi,... lúc arxiv.org 10-29-2024
https://arxiv.org/pdf/2410.19810.pdfYêu cầu sâu hơn