Spark & Elastic Stack을 활용한 데이터 분산 처리
Spark & Elastic Stack을 활용한
데이터 분산 처리
-
데이터 분산 처리의 모든 것
분산 시스템 기본 개념부터
데이터 파이프라인 구축까지
분산 처리의 처음과 끝을 모두 배웁니다. -
Spark & Hadoop / Elastic Stack / Kafka 등 약 30개 스택 경험
Spark 기반으로 한 배치, 스트리밍 파이프라인과 Elastic Stack & Kafka 기반으로 한 실시간 처리 파이프라인을 직접 구축해 봅니다.
-
다양한 도메인과 서비스 환경에 따른 실시간 & 배치 기반 빅데이터 처리
다양한 도메인 및 실시간 & 배치 환경에 따른
파이프라인 개요와 구성에 대해 학습하고
직접 실습해 봅니다.
글로벌 빅테크 서비스들은
얼마나 많은 양의 데이터를 다루고 있을까요?
글로벌 서비스에서 1분 동안 발생하는 데이터의 양
(내용 출처 : DOMO, Data never sleeps 9.0)
이런 빅데이터를 활용하는 방법은 기업마다 다르며,
실제 채용 시장에도 영향을 미치고 있습니다!
예시 1 | Kakao 실시간 추천 시스템 내 데이터 처리
예시 2 | 11번가 주문/결제 모니터링 트래픽 처리
빅데이터를 다루는 테크기업에게 고효율, 저비용으로 데이터를 처리하는 기술이 중요해짐에 따라,
엔지니어 채용 시 분산 처리 역량까지 구체적으로 요구하는 상황!
그래서, 준비했습니다!
빅데이터 분산 처리의 모든 것을 담은 강의!
빅데이터 분산 처리 전문가분들과 함께
실무에서 활용되는 기술셋과 핵심 툴을 다루어 보고
서비스 환경에 맞게 파이프라인까지 구축해 보는 강의예요!
Special 1
분산 처리의 모든 것을
알차게 채워놓은 커리큘럼
실력 있는 엔지니어가 되기 위해 반드시 필요한
데이터 분산 처리의 기초 이론부터 실습까지 한 번에!
Special 2
Spark & Hadoop / Elastic Stack / Kafka
실시간 및 배치 데이터 파이프라인을 직접 구축!
Spark 기반으로 한 배치, 스트리밍 파이프라인과
Elastic Stack, Kafka 기반으로 한 실시간 처리 파이프라인을
직접 구축해 보세요.
-
스파크를 활용하여 Session Log 와 Catalog 두 데이터를 결합하여 데이터 분석에 용이한 형태로 변환 가능한 데이터 파이프라인을 구축해봅니다. * Session Log : 웹사이트에서 발생하는 로그데이터 ex) 특정 상품 클릭 수, 실제 구매 수, 유저검색 이력 등
** Catalog : 상품의 정보를담고 있는 데이터 ex) 상품 ID, 이름, 가격, 카테고리 등 -
Elastic에서 제공하는 다양한 데이터로 데이터 분석 실습을 진행하며 대용량 데이터를 차트 및 테이블 형태로 시각화한 Dashboard를 구축하고 직접 데이터 파이프라인까지 구축해보는 프로젝트를 진행해봅니다.
Special 3
설치부터 시작해서 데이터 활용, 코드 실습까지
다양한 실습으로 꽉 채운 강의
이론만 알려주는 강의가 아닙니다.
35시간 중에
무려 실습이 15시간!
배운 개념을 바로 실습하면서 진짜 실력을 만들어보세요.
대표 실습 예시 01 Kubernetes와 Airflow를 활용한 배치 파이프라인 구성
-
Airflow - DAG 를 작성하고 UI로 확인해 보는 과정입니다.
-
Airflow - Webserver를 띄우고 기능들을 살펴 봅니다.
대표 실습 예시 02 Kafka와 Elastic stack을 활용한 실시간 처리 파이프라인 구성
-
Kibana실습 - Elasticsearch에 있는 데이터를 Kibana로 확인해 봅니다.
-
Kibana실습 - Kibana를 통해 대시보드를 직접 생성해 봅니다.
대표 실습 예시 03 Text Tokenizer, Nori 설정
-
Kibana와 Nori Tokenizer를 통해 Tag Cloud를 생성해 봅니다.
-
대표 실습 예시 04 RDD 실습 - 로그 집계 파이프라인 만들기 - Spark stage 분석
-
작성한 Spark 코드가 어떤 과정으로 실행이 되는지 UI에서 확인해 보는 과정입니다.
-
대표 실습 예시 05 Spark 데이터 Dataframe, Dataset, SQL 실습
-
로그 집계 파이프라인 만들기 & 데이터 성능 비교 실습을 진행해 봅니다.
-
AWS EC2에 Cassandra database 실습해 봅니다.
대표 실습 예시 06 데이터 파이프라인 구축 실습 - EMR cluster 설정 확인 & 모니터링 구축
EMR cluster의 CPU, 메모리, Disk 사용량 등 현재 상태를 추적할 수 있는 시스템으로 데이터 파이프라인 구축 실습을 통해 EMR Cluster 설정과 모니터링 구축에 대해 배워 봅니다.
Special 4
학습하다 모르는 부분이 생기면
바로 빅데이터 전문가와 질의응답 가능!
질의응답 채널을 통해 강사님, 다른 수강생분들과 함께 문제를 해결할 수 있어요.
다양한 꿀팁과 실무 이야기까지 공유해 보세요!
*질의응답 채널은 2023.03.10 ~ 2025.03.10 까지 운영됩니다.
Special 5
비교불가 초격차 구성!
패스트캠퍼스만의 분산 처리 강의
이런 분들에게 추천해요
수강 후, 나에게 일어날 변화를 확인해 보세요
실시간 & 배치 기반 데이터 처리 방법을 학습하고 문제 발생 시 스스로 해결할 수 있어요.
각각의 툴들이 가지고 있는 장점을 파악하여 데이터 파이프라인에 어떻게 활용되는지 알 수 있어요.
분산 처리 환경에서 데이터 파이프라인의 안정성을 해치지 않으면서 비용을 줄이고 효율적으로 활용할 수 있어요.
서비스 환경에 따른 데이터 흐름과 파이프라인을 이해하고 실무에 직접 적용해 볼 수 있어요.
엄현호 님
안녕하세요. 저는 쿠팡 데이터 엔지니어 개발자로 일하고 있는 엄현호라고 합니다.
현재 쿠팡에서 상품 검색을 위한 데이터 파이프라인을 구축, 운영하는 업무를 담당하고 있으며, 팀에서는 주로 Spark, Hbase, Cassandra, Spring을 사용하고 있습니다.
제가 진행하는 강의를 통해 수 TB 이상의 대용량 데이터, 준 실시간으로 만들어지는 데이터 등 여러 종류의 데이터를 효율적으로 저장, 처리 및 정제하는 방법 등을 배워 볼 수 있습니다. 또한 이 정제된 데이터를 활용하여 검색 색인, 머신러닝 모델의 인풋 데이터 등 여러 분야에서 사용하는 방법을 학습할 수 있습니다.
웹, 모바일 앱 분야에 비해 데이터 엔지니어링의 경우 실무에서 어떤 일을 하고 있는지 알기 어려울 것이라 생각합니다. 저도 취업 준비 할 때 그랬습니다. 평소에 개인이 분산 환경을 접할 일도 많지 않고, 대용량 데이터를 접하기 어려워 관련 실습을 해보기 어렵기 때문이라 생각합니다. 이 강의를 통해 실무에서 데이터 분산 처리와 관련하여 어떤 일을 하는지 감을 잡아보시면 좋겠습니다!
Jake 님
안녕하세요. 저는 유니콘 스타트업에서 데이터 엔지니어로 일하고 있는 Jake입니다.
저는 회사에서 빅쿼리 연동과 각종 데이터 연동 업무에 참여하고 있고 인프라 관리 및 MLOps 관련 프로젝트 등에 참여하고 있습니다.
강의는 제가 데이터 엔지니어로 성장하면서 답답했던 부분들에 대해 생각해보며 내용을 잡고 진행하게 되었습니다. 여러분은 강의를 통해 데이터 분산 처리에 필요한 각 툴의 역할을 학습해 볼 수 있습니다. 수강 후에는 의사 결정이 필요할 때 어떤 도구를 선택해야 할지 스스로 선택할 수 있게 됩니다.
해당 강의를 통해 혼자 공부하시거나 실무 활용에 어려움을 겪고 계시는 많은 데이터 엔지니어 실무자분들께 조금이나마 도움이 되었으면 합니다.
Question 1.
수강하시면 좋을까요?
- 0~2년차의 주니어 데이터 엔지니어
- Kafka / Elasticsearch / Airflow / Kubernetes / Spark & Hadoop 등 실무에서 활용하는 데 어려움을 느끼시는 분
Question 2.
있을까요?
- AWS 서비스에 대한 간단한 이해
Question 3.
- AWS EMR 등의 서비스 사용으로 인해 일부 비용이 발생할 수 있으며, 해당 비용은 강의에 포함되지 않습니다.
- Python 3.7 이상, JDK 1.8 이상, Airflow 2.0 이상, Elasticsearch 7.10 이상, Kafka 2.0이상
- git & VS code 또는 IntelliJ
커리큘럼
분산 처리의 A to Z를 알려주는 학습 커리큘럼입니다.
분산 처리 시스템을 포함한 다양한 툴과 프레임워크 개념부터 현업에서 활용하는 데이터 파이프라인 구축 실습까지 체계적으로 배울 수 있어요.
Part 1. 데이터 엔지니어링 기본 개념
Part 2. Kafka 이해하기
Part 3. Elasticsearch, ELK 스택
Part 4. Workflow Orchestration, Airflow
Part 5. 실전 프로젝트
Part 6. Kubernetes
Part 7. 강의 소개 및 개발 환경 구성
Part 8. Hadoop
Part 9. Apache Spark
Part 10. 컬럼 기반의 NoSQL
Part 11. File system
Part 12. 데이터 파이프라인 구축 실습