실시간 데이터 처리 위한 Spark & Flink & Kafka

초격차 패키지
실시간 빅데이터 처리 위한
Spark & Flink & Kafka

실시간 데이터 처리 주요
프레임워크의 핵심개념과 기술 학습

Spark & Flink & Kafka & Airflow 4가지 실시간 처리 주요 프레임워크의 핵심 개념과 기술들을 배워보고 이해할 수 있습니다.
데이터 프로세스 조직화

데이터를 생산하는 프로듀서, 데이터를 소비하는 컨슈머, 분석 및 저장하는 단계까지 실시간 데이터 처리를 위한 스케줄링과 모니터링을 통한 조직화 방법을 배울 수 있습니다.
다양한 도메인과 서비스 환경에 맞는
실시간 데이터 처리와 문제해결

현업에서 실시간 데이터 처리가 필요할 때 기술 선택부터 해결방법, 실행까지 활용하는 방법을 배울 수 있습니다.

코스 프로모션 배너 전용입니다.

0일 0시간 0분 0초 코스 프로모션 배너 전용입니다.

(자동)

정가 ~~(자동)~~

할인 금액 (자동)

현재 판매가 (자동)

(자동)

* 12개월 무이자 할부 시

바로 구매하기

기본 정보

• 6개 대주제 (약 26시간 분량)
• 초급-실전-응용
• 선수지식 : 기초적인 Scala, Java, Python 개발 지식
• Scala 2.13 이상, Python 3.10 이상, Java 8 이상
1. Spark 3.2 이상, Flink 1.14 이상

강의 특징

• 수강료 1회 결제로 평생 소장
• 강사님 질의응답 제공

대용량 트래픽이 발생하는 대기업일수록 빅데이터를
효율적으로 처리할 수 있는 데이터 엔지니어의 역할이 중요합니다.

빅데이터 처리 기술 방식은?

Batch Processing

특정 시간 범위 내 대량의 데이터를 일괄 처리

매주 발행하는 뉴스레터
매월 서비스 내 관심을 보인 유저에게 마케팅 이메일 발송
특정 일자 수요와 공급 예측
...

Data stream Processing

특정 시간 범위 내 대량의 데이터를 일괄 처리

매주 발행하는 뉴스레터
매월 서비스 내 관심을 보인 유저에게 마케팅 이메일 발송
특정 일자 수요와 공급 예측
...

실시간 데이터 처리 주요 프레임 워크

상황과 목적에 맞게 데이터 일괄처리(batch processing) 와 실시간 처리(Stream processing)을
적절히 확용하는 것이 데이터 엔지니어링의 핵심입니다.

실시간 데이터 처리의 핵심 기술인 Spark, Flink, Kafka, Airflow 핵심 개념과 각 프레임워크가 제공하는
여러 기능들을 배우고 다양한 실습을 통해 어떻게 활용되는지 노하우를 얻어갈 수 있습니다.

POINT 1

실시간 데이터 처리 주요 기술들을 한번에!

Apache Spark & Flink & Kafka & Airflow
5가지 실시간 처리 주요 프레임워크의 핵심 개념과 기술 내용을 모두 담았습니다.

POINT 2

실무에 바로 적용할 수 있는 실시간 데이터 처리 실습

실시간 데이터를 어떻게 다루고 처리할 수 있는지 각 기술별로 다양한 예제와 실습을 진행해봅니다.

Spark의 주요 Streaming API인 DStream API를 통해
마이크로 배치 방식 데이터 처리 실습 진행해봅니다.

Streaming data를 Spark로 처리해보고
간단한 Spark Structured Streaming Pipeline 구축해봅니다.

메일 전송에 필요한 데이터를 API로 호출하고
Kafka를 통해 메시지를 생산한 후 API 정보를 User에게 발송하는 실습
Producer과 Consumer구성을 알아보고
간단한 Event Streaming Pipeline을 구성해보는 실습
Pattern API 를 활용하여 Time 정보 없이 서로 다른 정보를 집계하여
인과관계를 식별 및 분석하는 방법에 대한 실습

각 Process Function을 활용하여 Stateful하고
Timely한 스트리밍 데이터를 어떻게 다룰 것인지 간단한 예제와 실습 병행

Map 및 FlatMap 등 기본적인 Transformation부터
Window, Join, Connect 및 Iterate 까지 각 Operate 실습

Airflow가 Batch workflow를 오케스트레이션하기 위해 선택했던
DAG구조와 해당 구조에 접근하는 사용자에게 마련한 계층적인
인터페이스 형태를 이해하고 Operator에 적용할 수 있는 틀 잡기

Data pipeline의 근간을 이루는 Operator 중 대표적인 것들을 살펴보고, 제공하지 않는 기능을 가진 Operator를 자유롭게 구현할 수 있는 방법 학습

POINT 3

실무 데이터를 활용한 실시간 데이터 처리 프로젝트

여러 서비스 환경과 상황에 따른 실무 데이터를 활용하여 실시간으로 데이터를 처리하는 프로젝트를 진행해봅니다.

실시간 뉴스 분석을 통한 뉴스 피드 추천

뉴스를 실시간으로 kafka 에 저장한 후 Flink를 통해
실시간으로 Clustering을 처리하여 kafka와 MYSQL 에 저장하는 프로젝트

쇼핑 결제 데이터를 활용한 이상치 탐지

쇼핑 시스템에서 결제 데이터를 활용하여 준실시간으로
들어오는 데이터를 가져와 비정상적인 세션을 감지하고 지표를 추출하는 프로젝트

POINT 4

전문가에게 직접 물어보는 실시간 데이터 엔지니어링 실무

실무에서 발생하는 문제들 및 활용방법 등과 관련하여 예비, 현직 데이터 엔지니어가 궁금해할 알짜배기
질문들을 실무자에게 직접 물어보고 인사이트를 얻어갈 수 있습니다.

*교육 내용 범주 안에서만 질의응답 가능합니다.
*2023년 9월 8일부터 2025년 9월 8일까지 운영됩니다.

Question.1

어떤 분들이
수강하시면 좋을까요?

• 데이터 엔지니어 분야로 취업을 준비하시는 분
• 0~2년차의 주니어 데이터 엔지니어
• Kafka / Airflow / spark / flink 등 활용하는데 어려움 느끼시는 분

Question.2

필요한
선수지식이 있을까요?

• Java & Python 기초 지식

Question.3

개발 환경

• IDE(IntelliJ, Pycharm)
• Flink, Airflow
• Intellij
• docker (spark zeppelin설치 시에 사용)
• Scala 2.13 이상, Python 3.10 이상, Java 8 이상
• Spark 3.2 이상, Flink 1.14 이상

강사님 소개

엄현호 강사님

[이력]
현) 쿠팡 data engineer

강사님 한마디

안녕하세요. 저는 국내 IT 대기업에서 데이터 엔지니어로 일하고 있으며,
배치/실시간 데이터 파이프라인을 구축하는 업무를 진행했었고 현재는 데이터 플랫폼을 구축하는 업무를 진행하고 있습니다. 이 강의는 실시간 데이터 처리를 처음 시작하려고 하시는 분들을 대상으로 각각의 프레임워크에 대한 전반적인 이해 및 사용 방법에 초점을 둔 강의입니다만, 알고 있으면 좋다고 느꼈던, 혹은 일하면서 도움이 되었던 심화 개념들에 대해서도 각 파트별로 다룰 예정입니다. 해당 강의를 통해 혼자 공부하시거나 실무 활용에 어려움 겪고 계시는 많은 데이터 엔지니어분들께 조금이나마 도움이 되었으면 합니다.

Beck 강사님

[이력]
현) 국내 대형 증권사 Data engineer
전) 국내 주요 포털사 Data Engineer

강사님 한마디

안녕하세요. 저는 포탈 기업에서 데이터 엔지니어를 시작해서, 현재는 증권 회사에서 해당 업무를 지속하고 있습니다. Hadoop 및 EcoSystem 관리부터 Spark 및 Flink 등을 활용한 데이터 분석과 CI/CD 구성 및 API Server 구축까지 데이터 엔지니어로서 할 수 있는 업무 전반에 대한 경험이 있습니다.

해당 강의를 통해 현업에서 실시간 데이터 파이프라인 구성 요구사항이 생겼을 때, 또는 유사한 업무를 해야하는 경우에 기술 선택부터 문제 해결을 위한 방법 및 실행까지 활용될 수 있습니다. 더불어 실시간으로 데이터를 수집하고 저장하는 업무를 수행함으로써 회사의 데이터 활용 전반에 걸쳐 중추적인 역할을 할 수 있고, 더 나아가 데이터사이언티스트/데이터 분석가 분들과 협업을 통해 훌륭한 결과를 도출해내는데 기여할 수 있습니다.

커리큘럼

분산처리의 a to z를 알려주는 학습 커리큘럼을 확인하세요.
분산처리 시스템을 포함한 다양한 툴과 프레임워크 개념부터 현업에서 활용하는 데이터 파이프라인 구축 실습까지 체계적으로 배워가세요

Part1. 데이터 엔지니어링이란?

01. 인사 및 강의 개요

∙ 강의소개 및 목차 안내

02. 데이터 엔지니어링 소개

∙ 데이터 엔지니어링이란?
∙ 데이터 처리 주요 아키텍처

03. 실시간 데이터 처리 소개

∙ ∙ 실시간 데이터 처리(스트리밍)란?

Part2. 배치 / 스트림 프로세싱 - Apache Spark

01. Spark 살펴보기

∙ Apache Spark란?
∙ 로컬 환경에 스파크 설치 및 워드 카운트 예제 실행
∙ spark 애플리케이션의 구성 요소
∙ Transformation, Action, Lazy Evaluation 의 개념

02. 배치 프로세싱 (Spark SQL / RDD / Dataframe)

∙ 스파크 RDD란?
∙ RDD 실습 - 로그 집계 파이프라인 만들기 - map, filter, reduce, group by
∙ RDD 실습 - join
∙ 스파크 DataFrame, Dataset, SQL 실습 - 로그 집계
∙ 파이프라인 만들기 - Dataframe API
∙ 스파크 DataFrame, Dataset, SQL 실습 - 로그 집계 파이프라인 만들기 - SQL API
∙ 스파크 DataFrame, Dataset, SQL 실습 - join
∙ 스파크 DataFrame, Dataset, SQL 실습 - 실전 예제 1

03. Spark 운영

∙클러스터 설정 및 리소스 튜닝 방법
∙클러스터 모니터링 Evaluation 의 개념

04. 스트림 프로세싱 (Structured Streaming, DStream)

∙Spark Structured Streaming이란?
∙Structured Streaming 실습 - 실시간 로그 집계 파이프라인 만들기
∙Dstream이란?
∙Dstream 실습 - 로그 집계 파이프라인 만들기 Part 1
∙Event Time windows, Processing Time
∙Windows 실습
∙Watermarking 개념 및 실습
∙스트리밍 데이터 소스(Input) 정리
∙스트리밍 싱크 (Output) 정리CheckPointing
∙스트리밍 모니터링 - StreamingQuery, Spark UI

05. Spark 심화개념

∙ Deploy mode - cluster, client mode
∙ 스파크 - action, stage, shuffle, task, slot 확인 실습
∙ Join의 종류
∙ 스파크 메모리 할당, 관리
∙ Partitioning 개요 및 중요성

Part 3. 스트림 프로세싱 - Apache kafka

01. 카프카 살펴보기

∙ Apache Kafka란?

02. 카프카 기본개념

∙ Topic, Partitions, Offset
∙ Producer, Message Keys
∙ Consumer, Deserialization
∙ Consumer Group, Consumer Offsets
∙ Brokers
∙ Replication
∙ Zookeeper, Kraft

03. Kafka 사용해보기

∙ 로컬 환경에 kafka 설치
∙topics cli 실습
∙producer cli 실습
∙consumer cli 실습
∙consumer group cli 실습
∙Java API 사용하여 kafka 애플리케이션 만들기 - Part 1) 요구 사항 정리
∙Java API 사용하여 kafka 애플리케이션 만들기 - Part 2) Producer 작성
∙Java API 사용하여 kafka 애플리케이션 만들기 - Part 3) Consumer 작성

04. Kafka 심화개념

∙ Broker - 주요 설정 값 정리
∙Producer - 주요 설정 값 정리, Serializer, Partitioner, interceptor
∙quota, throttling
∙Consumer - 주요 설정 값 정리
∙Consumer - Partition Rebalance
∙Consumer - Offset, commit
∙Consumer - Rebalance listener
∙Kafka Connector 예제

Part 4. 스트림 프로세싱 - Apache flink

01. Abstraction

∙ 다른 스트리밍 툴과 비교
∙고수준 / 저수준 API
∙Stateful 스트리밍 처리
∙Timely 스트리밍 처리
∙Architecture
∙Cluster 구현
∙HA & Execution Mode

02. DataStream API

∙ IO (Source & Sink, Async)
∙Data Source
∙파일 Source & Sink
∙Socket Source & Sink
∙Kafka Source & Sink

03. Operators

∙ Data Types & Serialization
∙ProcessFunction
∙Map
∙Filter
∙FlatMap
∙KeyBy
∙Reduce
∙Windows(2nd Practice)
∙ProcessWindowFunction
∙Window Functions
∙Tumbling Window
∙Sliding Window
∙Session Window
∙Global Window
∙Joining(3rd Practice)
∙Tumbling Window Join
∙Sliding Window Join
∙Session Window Join
∙Interval Join
∙Connect Operator(4th Practice)
∙CoMap
∙CoFlatMap

04. State & Fault Tolerance

∙Keyed State(5th Practice)
∙ValueState
∙ReducingState
∙ListState
∙AggregationState
∙MapState
∙Broadcast State 패턴
∙Checkpointing / Savepoints
∙Queryable State
∙데이터 타입 & 직렬화
∙Side Outputs

05. Event Processing(CEP)

∙Pattern API(6th Practice)
∙단일 / 결합 패턴
∙패턴 그룹 & Skip 전략
∙Time in CEP

06. Flink ML

∙Table API
∙Graph
∙Iteration
∙Clustering(7th Practice)

07. Deployment

∙Memory Configuration
∙Elastic Scaling
∙Fine-Graded Resource Management
∙Speculative Execution
∙Metric Reporters / Logging

08. Semi project

∙설명
∙구현

Part 5. Airflow 통한 배치 프로세싱

01. Abstraction

∙ Architecture
∙ Install & UI
∙ CLI

02. DAG

∙Task & DAG
∙Start & End Date
∙Backfill & Catchup
∙Timeout & Callback
∙Retry & Alret
∙Pool & Parallelism
∙Hook
∙SubDAG
∙Branching
∙Trigger Rule
∙XCOM
∙Variables & Params
∙Config

03. Operator

∙ PythonOperator
∙BashOperator
∙PostgresOperator
∙BranchOperator
∙BranchDateTimeOperator
∙SubDagOperator
∙TriggerDagRunOperator
∙ExternalTaskSensor
∙ShortCircuitOperator
∙LastestOnlyOperator
∙DummyOperator
∙CustomOperator - 1
∙CustomOperator - 2

Part 6. 스트림 프로세싱 프로젝트

01. 프로젝트 개요

∙ 요구사항 정리

02. 데이터 프로듀싱

∙프로듀싱 코드 작성 Part 1)
∙프로듀싱 코드 작성 Part 2)

03. 데이터 스트리밍

∙ 스트리밍 코드 작성 Part 1)
∙ 스트리밍 코드 작성 Part 2)

04. 데이터 저장

∙데이터 저장 코드 작성 Part 1)

05. 프로젝트 마무리

∙ AWS에 배포하기

상세 커리큘럼.

자세한 커리큘럼 및 내용은 여기서 확인하세요!

자세히 보기 »

(자동)

정가 ~~(자동)~~

할인 금액 (자동)

현재 판매가 (자동)

(자동)

* 12개월 무이자 할부 시

바로 구매하기

이 강의도 추천해요.

학습규정 * 본 상품은 동영상 형태의 강의를 수강하는 상품입니다.
* 상황에 따라 사전 공지 없이 할인이 조기 마감되거나 연장될 수 있습니다.

총 학습기간:
– 정상 수강기간(유료 수강기간) 최초 1개월(60일), 무료 수강 기간은 61일차 이후로 무제한이며, 유료 수강기간과 무료 수강기간 모두 동일하게 시청 가능합니다.
– 본 패키지는 약 35시간 분량으로, 일 1시간 내외의 학습 시간을 통해 정상 수강 기간(=유료 수강 기간) 내에 모두 수강이 가능합니다.
– 수강시작일: 수강 시작일은 결제일로부터 기간이 산정되며, 결제를 완료하시면 마이페이지를 통해 바로 수강이 가능합니다. (사전 예약 강의는 1차 강의 오픈일)
– 패스트캠퍼스의 사정으로 수강시작이 늦어진 경우에는 해당 일정 만큼 수강 시작일이 연기됩니다.
– 일부 강의는 아직 모든 영상이 공개되지 않았습니다. 각 상세페이지 하단에 공개 일정이 안내되어 있습니다.

주의사항 – 상황에 따라 사전 공지 없이 할인이 조기 마감되거나 연장될 수 있습니다.
– 천재지변, 폐업 등 서비스 중단이 불가피한 상황에는 서비스가 종료될 수 있습니다.
– 본 상품은 기수강생 할인, VIP CLUB 제도 (구 프리미엄 멤버십), 기타 할인 이벤트 적용이 불가할 수 있습니다.
– 커리큘럼은 제작 과정에서 일부 추가, 삭제 및 변경될 수 있습니다.
– 쿠폰 적용이나 프로모션 등으로 인해 5만원 이하의 금액으로 강의를 결제할 경우, 할부가 적용되지 않습니다.

환불규정 – 환불금액은 정가가 아닌 실제 결제금액을 기준으로 계산됩니다.
– 쿠폰을 사용하여 강의를 결제하신 후 취소/환불 시 쿠폰은 복구되지 않습니다.

– 수강시작 후 7일 이내, 5강 미만 수강 시에는 100% 환불 가능합니다.
– 수강시작 후 7일 초과, 5강 이상 수강 시 정상 수강기간(유료 수강기간) 대비 잔여일에 대해 다음과 같이 환불 가능합니다.
환불요청일 시 기준
: 수강시작 후 1/3 경과 전, 실 결제금액의 2/3에 해당하는 금액 환불
: 수강시작 후 1/2 경과 전, 실 결제금액의 1/2에 해당하는 금액 환불
: 수강시작 후 1/2 경과 후, 환불 금액 없음

* 보다 자세한 환불 규정은 홈페이지 취소/환불 정책에서 확인 가능합니다.

패스트캠퍼스 정책 안내 [패스트캠퍼스 아이디 공유 금지 정책]
패스트캠퍼스의 모든 온라인 강의에서는 1개의 아이디로 여러명이 공유하는 형태를 금지하고 있습니다.
동시접속에 대한 기록은 내부 시스템을 통해 자동으로 누적되며, 이후 서비스 이용이 제한될 수 있습니다.

[기기제한 정책]
패스트캠퍼스 온라인 강의 시청을 위해서는 ID별 최대 3개의 기기를 등록할 수 있으며, 기기 등록은 온라인 강의장 접속 시 자동 등록됩니다.
최대 갯수를 초과하였을 경우 등록된 기기 해제가 필요합니다.

[저작권 정책]
패스트캠퍼스의 모든 강의는 무단 배포 및 가공하는 행위, 캡쳐 및 녹화하여 공유하는 행위, 무단으로 판매하는 행위 등 일체의 저작권 침해 행위를 금지합니다.
부정 사용이 적발될 경우 저작권법 위반에 의한 법적인 제재를 받으실 수 있습니다.

root layout

실시간 빅데이터 처리 위한 Spark & Flink & Kafka

기본 정보

강의 특징

엄현호 강사님

강사님 한마디

Beck 강사님

강사님 한마디

01. 인사 및 강의 개요

02. 데이터 엔지니어링 소개

03. 실시간 데이터 처리 소개

01. Spark 살펴보기

02. 배치 프로세싱 (Spark SQL / RDD / Dataframe)

03. Spark 운영

04. 스트림 프로세싱 (Structured Streaming, DStream)

05. Spark 심화개념

01. 카프카 살펴보기

02. 카프카 기본개념

03. Kafka 사용해보기

04. Kafka 심화개념

01. Abstraction

02. DataStream API

03. Operators

04. State & Fault Tolerance

05. Event Processing(CEP)

06. Flink ML

07. Deployment

08. Semi project

01. Abstraction

02. DAG

03. Operator

01. 프로젝트 개요

02. 데이터 프로듀싱

03. 데이터 스트리밍

04. 데이터 저장

05. 프로젝트 마무리

상세 커리큘럼.

이 강의도 추천해요.