Google Cloud AI/ML 학습과 추론 성능 최적화 스토리지 선택 전략

Google Cloud AI/ML 학습과 추론 성능 최적화 스토리지 선택 전략개발 트렌드 포스팅/2024 Google Cloud Summit2024. 6. 29. 00:23@ray5273

Table of Contents

AI/ML시 생성되 데이터셋 크기 및 단일 파일 용량이 증가하고 있음을 먼저 언급했습니다.

AI/ML 스토리지 트렌드

그리고 그런 트렌드에 따라서 AI/ML 워크로드에 대한 스토리지 사용량중 약 80%를 Object Storage가 수용할것으로 예측했습니다.

AI/ML을 위한 스토리지 요구사항

4가지 정도를 들었는데 실제 스토리지 서버의 요구사항은 성능과 확장성 하나인것 같고 나머지는 그 위에 올라가는
스토리지 소프트웨어가 지원 해야 할 기능으로 보였습니다.

AI/ML 워크로드를 위한 스토리지의 주요 고려사항

크게 3가지의 요소가 있었는데

1. 데이터 준비

2. 학습

3. 추론 (인퍼런스)

였습니다.

그 중 이번 세션에서는 학습과 추론에 대해서 중점적으로 다루었습니다.

학습을 위한 스토리지

이전에 AWS Summit에서도 다루었듯 내용은 비슷합니다.

성능, 데이터 이동, 체크포인트를 중점적으로 설명했습니다.

그리고 위 3가지 요소에 맞춘 새로운 제품들을 제시했는데요.

1. Dataflux

2. GCS FUSE Read Cache

3. Anywhere Cache

였습니다.

Dataflux

기존 방식으로 사용하면 단위 용량이 작은 파일에 대한 병목이 있었다고 합니다.

이를 병렬화된 LIST, GET 오퍼레이션으로 학습시간을 단축했다고 하네요.

GitHub - GoogleCloudPlatform/dataflux-pytorch: The Dataflux Accelerated Dataloader for PyTorch with GCS is an effort to improve

The Dataflux Accelerated Dataloader for PyTorch with GCS is an effort to improve ML-training efficiency when using data stored in GCS for training datasets. Using the Dataflux Accelerated Dataloade...

github.com

AWS는 dataflux를 사용하고 있지 않은지는 정확하게 확인이 되지는 않습니다.

AWS에서 AI에 대해서 대응하는 관점과 비슷하긴한데 지원하는 기능은 조금 다른 경우가 있어서 재밌는것 같습니다.

GCS FUSE Read Cache

AWS에서도 Mountpoint for S3 로컬 캐싱이란게 있었죠.

FUSE의 경우에는 AWS나 Google이나 동일하게 구현해서 지원하는것으로 생각이 들었습니다.

Figure 9. Google NEXT 24 - GPU/TPU 유휴시간을 줄이기 위한 방법

Anywhere Cache

SSD 베이스로 구현되어있고,

스케일을 1 PiB 데이터단위와 10 Tbps read throughput을 지원한다고합니다.

어마어마한 단위와 속도인데 실제로 스토리지를 어떻게 구성했는지가 궁금하네요.

다만 기능 자체는 현재 일부 요구하는 고객에 대해서만 지원해준다고 합니다.

Figure 12. Google Next 24 - Traning과 Checkpoint를 위한 스토리지 지원

AWS와는 조금 다르게 Lustre가 아닌 DAOS 기반의 파일 시스템을 강조 하고 있습니다.만들고 있다는 특징이 있습니다.

물론, Google Cloud도 마찬가지로 Lustre 에 대한것들도 설치를 지원하고 있긴합니다.

아키텍처: DDN EXAScaler를 사용하는 Google Cloud의 Lustre 파일 시스템 | 클라우드 아키텍처 센터

의견 보내기 아키텍처: DDN EXAScaler를 사용하는 Google Cloud의 Lustre 파일 시스템 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요. Last reviewed 2023-11-15 UTC 이 문서에

cloud.google.com

Deploy a Lustre Parallel File System on GCP (google.com)

Deploy a Lustre Parallel File System on GCP | Google Codelabs

Learn how to deploy a Lustre Parallel file system in Google Cloud Platform using the open source Lustre Deployment Manager scripts.

codelabs.developers.google.com

추론을 위한 스토리지

Hyperdisk ML을 이용해서 TCO를 크게 줄일 수 있다고 합니다.

그냥 GCS를 사용하는것 보다는 70% 정도의 시간 감축이 있었고, 이를 통해서 GPU 등의 사용 시간을 줄여 45% 정도의 TCO 감소 효과가 있는것으로 보입니다.

주로 읽기 성능에 대한 개선을 얘기를 해줬던것 같습니다.

쓰기의 경우에는 Object Storage들이 웬만하면 빠르게 해주는 기능들이 들어가 있어서 일수도 있을것 같습니다.

참고

저작자표시 (새창열림)

@ray5273 :: Micro Changes, Macro Impact

개발 및 IT 관련 포스팅을 작성 하는 블로그입니다.

IT 기술 및 개인 개발에 대한 내용을 작성하는 블로그입니다. 많은 분들과 소통하며 의견을 나누고 싶습니다.