데이터 엔지니어에게 필수라는 'SNOWFLAKE' 대체 뭐길래?

#데이터엔지니어링 #빅데이터 #Snowflake


데이터 엔지니어는 데이터를 수집 및 분석할 수 있도록 거대한 데이터 파이프라인 시스템을 설계하고 구축하는 역할을 합니다. 이를테면 데이터 플로우 자동화, 성능 최적화 같은 업무가 이에 해당하죠. 이 밖에도 기업의 데이터를 잘 활용할 수 있도록 관리하기 때문에 데이터 엔지니어는 어느 회사에서나 중요한 필수 직군이라고 볼 수 있습니다.

이러한 추세는 2028년까지 데이터 엔지니어 일자리 수가 20% 증가할 것이라는 미국 노동통계국 조사 결과에서도 확인할 수 있는데요. 데이터 엔지니어의 가치는 날로 높아지고, 관련 인력에 대한 수요는 증가하고 있지만 전문 인력이 부족해 데이터 엔지니어의 연봉은 계속해서 오르고 있습니다.

이런 현상은 전 세계적으로 동일하게 발생하고 있습니다. 영국 인력 채용플랫폼 헤이스에서는 데이터 엔지니어를 '2022년 돈을 가장 많이 벌 10대 직종' 중 하나로 선정했고, 미국 직장 평가 기업인 글래스도어의 2019년 신임 데이터 사이언티스트는 실제로 연평균 9만 5천 달러(약 1억 1,500만 원)의 높은 연봉을 받고 있기도 하죠. 한국에서도 크게 다르지 않은 현상입니다. 엔씨소프트와 크래프톤의 개발직 연봉은 2021년에만 각 1,300만 원, 2,000만 원 인상되어 데이터 엔지니어의 몸값이 크게 뛰고 있는 것을 확인할 수 있습니다.

예전에는 기업의 인하우스 조직이 데이터 엔지니어들과 함께 아파치 하둡(Apache Hadoop)과 같은 오픈소스 소프트웨어를 활용해 빅데이터 저장 공간을 만들었다면, 최근에는 snowflake를 사용해 즉시 사용 가능한 분석형 데이터 웨어하우스를 이용할 수 있는데요. snowflake를 이용하게 되면 가상의 하드웨어나 물리적인 하드웨어에 대해서 걱정할 필요가 없습니다. 그렇기 때문에 이러한 snowflake 솔루션을 배운다면 여러분들도 빅데이터를 쉽게 수집하고, 처리하고, 활용하는 데이터 엔지니어가 될 수 있습니다.

시계열

"snowflake란?"

그렇다면 snowflake는 무엇일까요? snowflake는 데이터 저장, 데이터 처리부터 시각화, 머신러닝까지 한 번에 할 수 있는 클라우드 기반 통합 데이터 플랫폼입니다. '데이터 클라우드' 플랫폼 내에서 자유롭게 데이터 편집과 이동이 가능하고 데이터 저장 및 보관을 효율적으로 할 수 있게 도움을 주는 소프트웨어라고 할 수 있죠. snowflake는 그 가치를 인정받아 투자의 귀재 워렌버핏이 기술 종목과 IPO종목을 피한다는 기존의 원칙을 깨고 약 5억 7,000만 달러를 투자한 것으로도 유명합니다.

데이터사이언스


snowflake의 6가지의 주요 서비스

1. 데이터 엔지니어링

데이터 엔지니어링 서비스를 통해 다양한 부서에서 SQL을 이용해 데이터 파이프라인을 효율적으로 구축하고 관리할 수 있습니다. 클라우드상에서 작업이 가능하기 때문에 실시간으로 데이터를 사용할 수 있는 형태로 바로 변환하여 사용할 수 있고, 결국 빠른 의사결정을 할 수 있게 됩니다.

2. 데이터 레이크

데이터 레이크(Raw data)는 모든 유형의 데이터를 보관할 수 있는 대규모 저장창고라고 생각하시면 되는데요. 중앙 데이터의 저장소 역할에 강력한 보안 기능까지 더해져 모든 데이터를 안전하게 저장 할 수 있습니다.

3. 데이터 웨어하우스

데이터 웨어하우스를 통해 snowflake에 분석 가능한 형태로 가공된 데이터를 저장할 수 있습니다. 이 웨어하우스 기능으로 데이터에 쉽게 접근할 수 있습니다.

4. 데이터 사이언스

통계 분석 툴, 머신러닝 기능 등을 제공받아 방대한 양의 데이터를 분석할 수 있습니다. 다양한 프로그래밍 언어를 지원받을 수 있어 언어에 구애없이 한 플랫폼 안에서 데이터 분석을 할 수 있습니다.

5. 데이터 어플리케이션

데이터 분석 어플리케이션을 신규로 개발할 수 있습니다. 또, 기존 어플리케이션을 snowflake 플랫폼과 연동시킬 수 있습니다.

6. 데이터 교환

데이터를 공유하고 서로 연결하고 협업할 수 있는 솔루션을 제공받을 수 있습니다. 데이터 허브를 통하기 때문에 사용하는 사람들끼리 정보 교환은 물론, 협력 기업들도 빠르게 데이터를 교환할 수 있습니다.

prophet


snowflake의 장점

snowflake는 유연한 리소스 관리를 통해 비용을 절감할 수 있다는 장점이 있는데요. 컴퓨트 레이어와 스토리지 레이어를 분리해서 필요에 따라 리소스를 늘리고 줄임으로써 엄청난 비용을 절감할 수 있죠.

또 광범위한 Native 커넥터를 제공한다는 점도 snowflake의 장점입니다. Snowflake에는 Spark, Python 네이티브 커넥터와 수많은 써드파티 커넥터가 있는데요. 이런 다양한 커넥터, 드라이버, 프로그래밍 언어 및 유틸리티를 통해 Snowflake에 액세스할 수 있습니다.

또 다른 장점은 멀티 클라우드 환경에서 유리하다는 점인데요. snowflake는 아마존, 마이크로소프트, 구글 3사 모두의 환경에서 구동 가능한 유일한 데이터 웨어하우스입니다. 환경에 제약 없이 데이터를 활용할 수 있기 때문에 여러 종류의 클라우드 컴퓨팅 벤더사를 사용하는 기업은 대형 단일 플랫폼을 사용하는 것보다 snowflake 제품을 사용하는 게 편리할 수 있습니다.


지금 패캐머들이 읽고있는 BEST 아티클이 궁금하다면