toplogo
Entrar
insight - 시각 변환기 모델 가속화 - # 처리 인-메모리 시스템에서의 시각 변환기 모델 배포

시각 변환기 모델의 처리 인-메모리 시스템에서의 효율적인 워크로드 오케스트레이션


Conceitos essenciais
처리 인-메모리 시스템에서 시각 변환기 모델의 추론 지연을 최소화하기 위한 효율적인 워크로드 오케스트레이션 기법을 제안한다.
Resumo

이 논문은 처리 인-메모리(PIM) 시스템에서 시각 변환기 모델의 추론 지연을 최소화하기 위한 Allspark 프레임워크를 제안한다.

  1. 세부적인 분할 및 체계적인 레이아웃, 순환 데이터 흐름을 통해 PIM의 대규모 병렬 처리 능력을 최대한 활용한다.
  2. 리소스 제한된 분산 PIM 시스템에서 전체 모델을 실행하고 추론 지연을 최소화하기 위해 정수 선형 프로그래밍 기반의 스케줄링 기법을 제안한다.
  3. 복잡한 지역-전역 데이터 상호작용에 대해 그리디 기반의 매핑 방법을 제공하여 NoC 통신 비용을 최소화한다.

실험 결과, Allspark은 다양한 시각 변환기 모델에 대해 1.2배~24.0배의 추론 속도 향상을 보였으며, Allspark 강화 PIM 시스템은 Nvidia V100 GPU 대비 평균 2.3배 속도 향상과 20배~55배의 에너지 절감 효과를 달성했다.

edit_icon

Personalizar Resumo

edit_icon

Reescrever com IA

edit_icon

Gerar Citações

translate_icon

Traduzir Fonte

visual_icon

Gerar Mapa Mental

visit_icon

Visitar Fonte

Estatísticas
시각 변환기 모델의 추론 속도가 GPU 대비 2.3배 향상되었다. 시각 변환기 모델의 에너지 소비가 GPU 대비 20배~55배 절감되었다.
Citações
없음

Principais Insights Extraídos De

by Mengke Ge,Ju... às arxiv.org 03-25-2024

https://arxiv.org/pdf/2403.15069.pdf
Allspark

Perguntas Mais Profundas

시각 변환기 모델의 지역-전역 상호작용을 더 효율적으로 처리할 수 있는 방법은 무엇일까?

시각 변환기 모델의 지역-전역 상호작용을 더 효율적으로 처리하기 위해서는 다음과 같은 방법을 고려할 수 있습니다: 지역-전역 상호작용에 대한 복잡한 의존성을 고려하여 각 계산 분기를 PIM 시스템에 할당할 때 데이터 이동 비용을 최소화하는 방법을 고려해야 합니다. 이를 위해 각 계산 분기를 PIM 노드 배열에 배치하고 NoC 통신 비용을 최소화하는 구조화된 레이아웃을 고려해야 합니다. 지역-전역 상호작용을 고려하여 각 계산 분기를 PIM 노드 배열에 할당할 때 Greedy 기반의 매핑 방법을 사용하여 효율적으로 데이터 교환 비용을 최소화해야 합니다. 지역-전역 상호작용을 처리하는 데 필요한 중요한 데이터 교환을 최적화하기 위해 각 계산 분기를 PIM 시스템에 배치하고 데이터 이동을 최소화하는 방법을 고려해야 합니다.

시각 변환기 모델의 계층적 구조를 활용하여 PIM 시스템의 리소스 활용도를 높일 수 있는 방법은 무엇일까?

시각 변환기 모델의 계층적 구조를 활용하여 PIM 시스템의 리소스 활용도를 높이기 위해서는 다음과 같은 방법을 고려할 수 있습니다: 각 계산 분기를 PIM 시스템에 더 세분화된 방식으로 배치하여 데이터 지역성을 최대화하고 데이터 이동을 줄이는 방법을 사용합니다. 각 모델 블록을 시간적으로 및 공간적으로 스케줄링하여 리소스 활용을 최대화합니다. 이를 위해 ILP(정수 선형 프로그래밍) 문제로 전체 모델의 스케줄링을 수행합니다. 다양한 계산 분기를 PIM 노드 배열에 할당하고 NoC 통신 비용을 최소화하는 Greedy 기반의 매핑 방법을 사용하여 지역-전역 데이터 상호작용을 고려합니다.

시각 변환기 모델의 배포 및 가속화 기법이 다른 메모리 집약적 모델에도 적용될 수 있을까?

시각 변환기 모델의 배포 및 가속화 기법은 다른 메모리 집약적 모델에도 적용될 수 있습니다. 이러한 기법은 메모리 집약적인 작업을 가속화하고 효율적으로 처리하는 데 도움이 될 수 있습니다. 특히 PIM 아키텍처를 활용하여 메모리와 연산을 효율적으로 조합함으로써 다른 메모리 집약적 모델에도 적용할 수 있습니다. 또한 ILP와 Greedy 기반의 매핑 방법을 사용하여 리소스를 최적화하고 데이터 이동을 최소화하는 방법은 다른 메모리 집약적 모델에도 유용할 수 있습니다. 따라서 시각 변환기 모델의 배포 및 가속화 기법은 다른 메모리 집약적 모델에도 적용 가능합니다.
0
star