核心概念
기계 학습 모델을 실제 운영 환경에 배포하고 유지하는 과정은 매우 복잡하며, 이를 위해 기계 학습 엔지니어들은 데이터 과학과 엔지니어링 능력을 모두 갖추어야 한다.
要約
이 연구는 기계 학습 엔지니어(MLE)들의 실제 운영 환경에서의 워크플로우와 과제를 파악하기 위해 수행되었다. 연구진은 18명의 MLE를 대상으로 인터뷰를 진행했으며, 다음과 같은 주요 발견 사항을 도출했다:
데이터 준비 단계:
- 데이터 엔지니어링 팀이 자동화된 데이터 파이프라인을 관리하며, MLE는 데이터 선택, 분석, 레이블링, 검증 등의 작업에 집중한다.
- 모델 재학습 주기를 자동화하지만, 레이블 품질 관리와 피드백 지연 문제는 여전히 해결해야 할 과제이다.
실험 단계:
- 모델 개발 및 튜닝은 여전히 반복적이고 협업 중심적이다.
- MLE는 도메인 전문가와 이해관계자들과 긴밀히 협력하며, 모델 아키텍처보다는 데이터 개선에 더 집중한다.
배포 및 평가 단계:
- 조직들은 단계적 배포와 다양한 평가 지표를 활용하여 모델 배포를 엄격하게 관리한다.
- 특정 데이터 하위 집단의 성능을 면밀히 모니터링한다.
모니터링 및 대응 단계:
- MLE는 배포된 모델의 성능을 면밀히 모니터링하고, 신속하게 대응할 수 있도록 준비한다.
- 경보 피로, 복잡한 파이프라인 관리 등의 과제에 직면한다.
이러한 발견을 통해 MLE의 실제 운영 환경에서의 워크플로우와 과제를 이해할 수 있었으며, 향후 MLOps 도구 개발을 위한 기회를 제시한다.
統計
"피드백이 항상 최소 2주 지연됩니다. 때로는 피드백을 받지 못할 수도 있어서, 문제가 생겼다는 것을 알게 되면 이미 늦어버리죠."
"레이블을 많이 생성한다고 해서 실제로 무엇을 레이블링하고 있는지, 그리고 레이블의 정의가 명확한지 알 필요가 있습니다."
"매일 모델을 재학습하면 모델이 오래된 것을 걱정할 필요가 없어요."
引用
"실제 운영 환경에 모델을 배포하기 전까지는 모델이 어떻게 동작할지 알 수 없습니다."
"모델의 90%가 운영 환경에 배포되지 못한다는 통계는 잘못된 것 같습니다. 많은 실험 버전이 생성되지만, 그중 최선의 모델만이 운영 환경에 배포됩니다."
"데이터 품질이 모델 성능의 핵심입니다. 데이터 품질 관리가 어려워지면 모델 성능도 저하됩니다."