![[번역] 노션이 데이터 레이크를 구축하고 확장한 방법](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fp35nH%2FbtsI06PUJ9z%2Fvam9UKAfpJRVJXKgbeQ6xK%2Fimg.png)
How Notion build and grew our data lake to keep up with rapid growthHow Notion build and grew our data lake to keep up with rapid growthwww.notion.so위의 포스트를 번역하고 정리했습니다. 노션의 데이터 모델과 성장노션에서 볼 수 있는 모든 텍스트, 이미지, Headings, 리스트, 데이터베이스 , 페이지 등등 프론트엔드에서의 표현과 작동 방식은 다를지라도 모두 "block" entity 로써 백엔드에서 모델되었습니다.그리고 이 데이터들은 Postgres 데이터베이스에 저장되어있죠.(참고, 노션의 데이터 모델 : The data model behind Notion's flexibility)..
![Google Cloud AI/ML 학습과 추론 성능 최적화 스토리지 선택 전략](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbFZXmV%2FbtsIgLfIpsV%2FRnu5ngfqF0yQ2OfOE04rqK%2Fimg.png)
AI/ML시 생성되 데이터셋 크기 및 단일 파일 용량이 증가하고 있음을 먼저 언급했습니다.AI/ML 스토리지 트렌드그리고 그런 트렌드에 따라서 AI/ML 워크로드에 대한 스토리지 사용량중 약 80%를 Object Storage가 수용할것으로 예측했습니다. AI/ML을 위한 스토리지 요구사항4가지 정도를 들었는데 실제 스토리지 서버의 요구사항은 성능과 확장성 하나인것 같고 나머지는 그 위에 올라가는스토리지 소프트웨어가 지원 해야 할 기능으로 보였습니다. AI/ML 워크로드를 위한 스토리지의 주요 고려사항크게 3가지의 요소가 있었는데1. 데이터 준비2. 학습3. 추론 (인퍼런스)였습니다. 그 중 이번 세션에서는 학습과 추론에 대해서 중점적으로 다루었습니다. 학습을 위한 스토리지 이전에 AWS Summit에서..
![AWS Seoul Summit 2024 - 스토리지 관련 세미나 요약 모음](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fchkicu%2FbtsHBYfvYFc%2FtZdr49n67xRjPg6XS5a4aK%2Fimg.jpg)
이전 포스트에 이어서 본 포스트에서는 AWS Seoul Summit 2024의 여러가지 세션들 중 데이터/스토리지와 관련된 세미나를 요약해보려고합니다.제가 들었던 것 들 중에 2가지를 중점적으로 요약했습니다. 1. AWS로 데이터 레이크 구축하기AWS로 데이터 레이크 구축하기 세션이 있었습니다.먼저 데이터 레이크와 데이터 웨어하우스를 정의해보겠습니다. 데이터 레이크 vs 데이터 웨어하우스 데이터 레이크데이터 웨어하우스데이터 형태- 정형, 반정형, 비정형 데이터를 raw data로저장(데이터를 정제하지 않고 있는 그대로 저장)- 데이터를 구조화 된 형태로 저장- 업무 분석 요구에 맞춰 데이터를 정제, 가공하여 저장스키마 요건사전 스키마 설계 관련 요구 조건 없음데이터 저장전에 스키마 설계 필요데이터 신뢰..
![AWS Summit Seoul 2024 - AWS 스토리지로 AI/ML 워크로드 가속화](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcfD3G9%2FbtsHBBRArJ9%2FFBMWEdrOnHkTks1g5k4up0%2Fimg.jpg)
이번 AWS Summit Seoul 2024는 주로 AI/ML 그리고 LLM에 대한 내용이 메인을 이루고 있었습니다.그 중에서 Storage와 관련된 세션이 저의 주 관심사였습니다."AWS스토리지로 AI/ML 워크로드 가속화" 라는 세션에 참가했고 AI/ML의 인프라 관점에서의 인사이트를 얻을 수 있었어서 공유드립니다. ML 관점에서 스토리지의 중요 표인트최근에 AI에 대한 관심이 많아지면서 용어를 혼용해서 쓰는 경우가 많았어서 먼저 각 용어에 대해서 먼저 정의를 했다고합니다. 그 중 ML을 어떻게 구축하는지를 아래의 장표에서 정리를해주었습니다.핵심은 1. Build : ML 모델을 개발한다.2. Train & Tune : 개발한 모델을 학습시키고 튜닝한다.라는 과정을 거친다는것입니다. Amazon Sa..
![Nearline HDD](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FdTc025%2FbtsCSCAV4lb%2FY1qvQKLea4ENgXp5NXjGS0%2Fimg.png)
BroadCom의 스토리지 사업 IR 자료를 읽다가 해당 내용이 있어서 한번 정리해보려고한다. Storage 종류 별 데이터 양 변화 예측 클라이언트향 HDD는 줄어 들고 Enterprise향 SSD의 양은 줄어든다고 예측했다. 그리고 Nearline HDD시장은 크게 늘것으로 전망하고 있다. Nearline HDD는 왜 쓰는가 솔리드 스테이트 드라이브(SSD)의 인기가 높아지고 있음에도 불구하고, HDD, 특히 근접 HDD는 데이터 센터 및 클라우드 인프라에서 중요한 구성 요소로 남아 있습니다. 그들은 높은 용량, 신뢰성 및 낮은 총소유비용(TCO)으로 선호됩니다. 근접 HDD는 특히 중요 하며, 기업 데이터를 저장하는 데 필수적인 백본으로 이 부문은 HDD 중에서 가장 빠르게 성장하는 시장 부문 입니..