초격차 패키지
실시간 빅데이터 처리 위한
Spark & Flink & Kafka

  • 실시간 데이터 처리 주요
    프레임워크의 핵심개념과 기술 학습

    Spark & Flink & Kafka & Airflow 4가지 실시간 처리 주요 프레임워크의 핵심 개념과 기술들을 배워보고 이해할 수 있습니다.

  • 데이터 프로세스 조직화

    데이터를 생산하는 프로듀서, 데이터를 소비하는 컨슈머, 분석 및 저장하는 단계까지 실시간 데이터 처리를 위한 스케줄링과 모니터링을 통한 조직화 방법을 배울 수 있습니다.

  • 다양한 도메인과 서비스 환경에 맞는
    실시간 데이터 처리와 문제해결

    현업에서 실시간 데이터 처리가 필요할 때 기술 선택부터 해결방법, 실행까지 활용하는 방법을 배울 수 있습니다.

코스 프로모션 배너 전용입니다.
0 0시간 0 0 코스 프로모션 배너 전용입니다.
(자동)
정가 (자동)
할인 금액 (자동)
현재 판매가 (자동)

(자동)

* 12개월 무이자 할부 시

대용량 트래픽이 발생하는 대기업일수록 빅데이터를
효율적으로 처리할 수 있는 데이터 엔지니어의 역할이 중요합니다.

빅데이터 처리 기술 방식은?

Batch Processing

특정 시간 범위 내 대량의 데이터를 일괄 처리

매주 발행하는 뉴스레터
매월 서비스 내 관심을 보인 유저에게 마케팅 이메일 발송
특정 일자 수요와 공급 예측
...
Data stream Processing

특정 시간 범위 내 대량의 데이터를 일괄 처리

매주 발행하는 뉴스레터
매월 서비스 내 관심을 보인 유저에게 마케팅 이메일 발송
특정 일자 수요와 공급 예측
...

실시간 데이터 처리 주요 프레임 워크

상황과 목적에 맞게 데이터 일괄처리(batch processing) 실시간 처리(Stream processing)
적절히 확용하는 것이 데이터 엔지니어링의 핵심입니다.

실시간 데이터 처리의 핵심 기술인 Spark, Flink, Kafka, Airflow 핵심 개념과 각 프레임워크가 제공하는
여러 기능들을 배우고 다양한 실습을 통해 어떻게 활용되는지 노하우를 얻어갈 수 있습니다.

POINT 1

실시간 데이터 처리 주요 기술들을 한번에!

Apache Spark & Flink & Kafka & Airflow
5가지 실시간 처리 주요 프레임워크의 핵심 개념과 기술 내용을 모두 담았습니다.

POINT 2

실무에 바로 적용할 수 있는 실시간 데이터 처리 실습

실시간 데이터를 어떻게 다루고 처리할 수 있는지 각 기술별로 다양한 예제와 실습을 진행해봅니다.

Spark의 주요 Streaming API인 DStream API를 통해
마이크로 배치 방식 데이터 처리 실습 진행해봅니다.

Streaming data를 Spark로 처리해보고
간단한 Spark Structured Streaming Pipeline 구축해봅니다.

각 Process Function을 활용하여 Stateful하고
Timely한 스트리밍 데이터를 어떻게 다룰 것인지 간단한 예제와 실습 병행

Map 및 FlatMap 등 기본적인 Transformation부터
Window, Join, Connect 및 Iterate 까지 각 Operate 실습

Airflow가 Batch workflow를 오케스트레이션하기 위해 선택했던
DAG구조와 해당 구조에 접근하는 사용자에게 마련한 계층적인
인터페이스 형태를 이해하고 Operator에 적용할 수 있는 틀 잡기

Data pipeline의 근간을 이루는 Operator 중 대표적인 것들을 살펴보고, 제공하지 않는 기능을 가진 Operator를 자유롭게 구현할 수 있는 방법 학습

POINT 3

실무 데이터를 활용한 실시간 데이터 처리 프로젝트

여러 서비스 환경과 상황에 따른 실무 데이터를 활용하여 실시간으로 데이터를 처리하는 프로젝트를 진행해봅니다.

실시간 뉴스 분석을 통한 뉴스 피드 추천

뉴스를 실시간으로 kafka 에 저장한 후 Flink를 통해
실시간으로 Clustering을 처리하여 kafka와 MYSQL 에 저장하는 프로젝트

쇼핑 결제 데이터를 활용한 이상치 탐지

쇼핑 시스템에서 결제 데이터를 활용하여 준실시간으로
들어오는 데이터를 가져와 비정상적인 세션을 감지하고 지표를 추출하는 프로젝트

POINT 4

전문가에게 직접 물어보는 실시간 데이터 엔지니어링 실무

실무에서 발생하는 문제들 및 활용방법 등과 관련하여 예비, 현직 데이터 엔지니어가 궁금해할 알짜배기
질문들을 실무자에게 직접 물어보고 인사이트를 얻어갈 수 있습니다.

*교육 내용 범주 안에서만 질의응답 가능합니다.
*2023년 9월 8일부터 2025년 9월 8일까지 운영됩니다.

Question.1

어떤 분들이
수강하시면 좋을까요?
• 데이터 엔지니어 분야로 취업을 준비하시는 분
• 0~2년차의 주니어 데이터 엔지니어
• Kafka / Airflow / spark / flink 등 활용하는데 어려움 느끼시는 분

Question.2

필요한
선수지식이 있을까요?
• Java & Python 기초 지식

Question.3

개발 환경
• IDE(IntelliJ, Pycharm)
• Flink, Airflow
• Intellij
• docker (spark zeppelin설치 시에 사용)
• Scala 2.13 이상, Python 3.10 이상, Java 8 이상
• Spark 3.2 이상, Flink 1.14 이상

강사님 소개

엄현호 강사님

[이력]
현) 쿠팡 data engineer

강사님 한마디

안녕하세요. 저는 국내 IT 대기업에서 데이터 엔지니어로 일하고 있으며,
배치/실시간 데이터 파이프라인을 구축하는 업무를 진행했었고 현재는 데이터 플랫폼을 구축하는 업무를 진행하고 있습니다. 이 강의는 실시간 데이터 처리를 처음 시작하려고 하시는 분들을 대상으로 각각의 프레임워크에 대한 전반적인 이해 및 사용 방법에 초점을 둔 강의입니다만, 알고 있으면 좋다고 느꼈던, 혹은 일하면서 도움이 되었던 심화 개념들에 대해서도 각 파트별로 다룰 예정입니다. 해당 강의를 통해 혼자 공부하시거나 실무 활용에 어려움 겪고 계시는 많은 데이터 엔지니어분들께 조금이나마 도움이 되었으면 합니다.

Beck 강사님

[이력]
현) 국내 대형 증권사 Data engineer

전) 국내 주요 포털사 Data Engineer
 

강사님 한마디

안녕하세요. 저는 포탈 기업에서 데이터 엔지니어를 시작해서, 현재는 증권 회사에서 해당 업무를 지속하고 있습니다. Hadoop 및 EcoSystem 관리부터 Spark 및 Flink 등을 활용한 데이터 분석과 CI/CD 구성 및 API Server 구축까지 데이터 엔지니어로서 할 수 있는 업무 전반에 대한 경험이 있습니다. 

해당 강의를 통해 현업에서 실시간 데이터 파이프라인 구성 요구사항이 생겼을 때, 또는 유사한 업무를 해야하는 경우에 기술 선택부터 문제 해결을 위한 방법 및 실행까지 활용될 수 있습니다. 더불어 실시간으로 데이터를 수집하고 저장하는 업무를 수행함으로써 회사의 데이터 활용 전반에 걸쳐 중추적인 역할을 할 수 있고, 더 나아가 데이터사이언티스트/데이터 분석가 분들과 협업을 통해 훌륭한 결과를 도출해내는데 기여할 수 있습니다.

커리큘럼

분산처리의 a to z를 알려주는 학습 커리큘럼을 확인하세요.
분산처리 시스템을 포함한 다양한 툴과 프레임워크 개념부터 현업에서 활용하는 데이터 파이프라인 구축 실습까지 체계적으로 배워가세요

Part1. 데이터 엔지니어링이란?

Part2. 배치 / 스트림 프로세싱 - Apache Spark

Part 3. 스트림 프로세싱 - Apache kafka

Part 4. 스트림 프로세싱 - Apache flink

Part 5. Airflow 통한 배치 프로세싱

Part 6. 스트림 프로세싱 프로젝트

  • 상세 커리큘럼.

    자세한 커리큘럼 및 내용은 여기서 확인하세요!

(자동)
정가 (자동)
할인 금액 (자동)
현재 판매가 (자동)

(자동)

* 12개월 무이자 할부 시
이 강의도 추천해요.