데이터 사이언티스트

"결국 '시계열'은 반드시 넘어야 할 산이죠" FedEx 현직자의 '5시간만에 시계열 마스터하는 법'

#딥러닝/인공지능 #FedEx #시계열



"결국 '시계열'은 반드시 넘어야 할 산이죠"
FedEx 현직자의 '5시간만에 시계열 마스터하는 법'

글 미리보기

1. Intro
2. 미래를 내다보는 눈, 시계열
3. 커리어 성장의 지름길이죠
4. 내일이 아니라, 오늘 당장 시작해야 합니다

시계열

Intro

스티븐 스필버그 감독의 영화 <마이너리티 리포트(Minority Report)>는 ‘범죄자 예측 시스템’이 도입된 2054년 미국을 배경으로 합니다. 최첨단 치안 시스템인 ‘프리크라임 시스템(Pre-Crime System)’으로 범죄자의 얼굴과 사건이 일어나는 시간, 장소를 예측한 뒤 현장을 급습하여 범죄자를 체포하게 되는 것이죠. 99.99%의 예측률을 자랑하는 프리크라임 시스템은 높은 범죄율을 거의 0%로 만드는 데 일조하며 시민들의 안전을 지키는 든든한 존재였습니다. 또한 주인공 존 앤더튼(톰 크루즈)는 프리크라임 시스템을 활용하여 범죄자를 체포하는 특수 경찰로서 그 능력을 인정받고 있었죠.

그러던 어느 날, 프리크라임 시스템이 다음 범죄 가해자로 주인공 ‘존’을 주목하게 되고, 그는 해당 예측이 오류임을 밝히기 위해 고군분투하게 됩니다. 존은 실제로 일이 벌어지기 전까지, 시스템의 예측이 오류라고 믿었습니다. 그도 그럴 것이 해당 시스템이 ‘아가사’를 비롯한 예지자 3명의 예지력으로 운영되고 있기 때문이었죠.

유능한 특수 경찰로서 신임받던 존 앤더튼은 단 한 순간에 예비 범죄자로 낙인찍히고 맙니다. 그만큼 예지자의 예측률이 정확했기 때문이었는데요. 시민들의 안전 문제에 직결되는 만큼, 영화 속에서 프리크라임 시스템의 예지력은 단순히 ‘기능’으로서 존재하는 것뿐만 아니라 하나의 ‘권력’ 구조를 형성하고 있습니다. 결과를 미리 내다본다는 것은, 어떤 문제를 해결할 수 있는 ‘중요한 실마리’를 제공하는 것과 같습니다.
영화 속 프리크라임 시스템의 핵심 인물 ‘아가사’처럼, 현실에서도 해결하기 힘든 문제의 결과를 예측하여 문제 해결의 실마리를 제공하는 사람이 있는데요. 바로 ‘데이터 사이언티스트’입니다.

현재 FedEx 본사의 시니어 데이터 사이언티스트로 재직하고 있는 주버 라만 박사는 시계열, 자연어 처리 전문가로서 각종 데이터를 분석하고, 결과를 예측한 뒤 그것을 해석하는 일을 하고 있습니다. 시계열이란 시간의 경과에 따라 연속적으로 관측된 값의 계열을 말하는데요. 다양한 KPI나 날씨, 주가, 시세 등을 예측하기에 용이합니다. 따라서 시계열은 정확하고 빠르게 결괏값을 얻고 싶은 데이터 사이언티스트뿐만 아니라 주식 투자자, 사업 기획자, 영업 및 마케팅 담당자 등 다양한 직군 종사자들에게 매우 유용한 도구입니다. 데이터 사이언스에 조금이라도 관심 있는 사람이라면 한 번쯤 들어보았을 ‘Prophet’은 Facebook에서 만들어 공개한 시계열 예측 라이브러리인데요. 다룰 줄만 안다면 아주 쉽게 모델을 예측할 수 있다고 합니다.

주버 라만 박사는 많은 사람이 보다 쉽게 프로펫을 다룰 수 있도록, 패스트캠퍼스의 ‘Facebook Prophet을 활용한 python 시계열 예측’이라는 강의에서 그 노하우를 밝혔는데요.
그에게 직접 프로펫이 어디에서 얼마나 효율적으로 사용되는지, 또 어떤 사람들이 이것을 배우면 좋을지에 대해 직접 들어보았습니다.

미래를 내다보는 눈, 시계열

데이터사이언스

Q. 먼저, 박사님께서 현재 하고 계신 일이 궁금합니다. 현재 FedEx에서 시니어 데이터 사이언티스트로 근무하고 계신데요.
주로 어떤 업무를 하고 계신가요?


A. 저는 FedEx의 ‘영업 데이터 사이언스 및 엔지니어링 팀’에서 시니어 데이터 사이언티스트로 일하고 있습니다.

영업 전문가가 더 나은 전략을 수립하고, 조직의 성장을 주도하도록 돕는 ‘머신러닝 기반 예측 응용 프로그램의 생성’이 우리 팀의 주 작업이죠. 더 구체적으로 말씀드리자면, 외부 고객 확보 촉진을 위해 ‘구매자 성향을 예측하는 일’을 합니다. 저는 고객 유지 전략의 일환으로 LSTM 모델을 사용하여 과거 데이터(기회, 볼륨, 서비스 품질 등)를 사용하여 기존 고객의 이탈을 예측하는 모델을 개발했어요.

또한 ‘Extreme gradient boosting 모델’을 활용하여 지역 및 산업 GDP, 기업 통계 및 판매량에 대한 과거 추세를 사용하여 고객의 성장 성향을 예측합니다. 제가 만드는 솔루션의 대부분은 영업팀에서 제공하는 맞춤형 CRM(customer relationship manager) 플랫폼에 배포됩니다.

시계열

Q. 저는 데이터 분석을 전공하지 않았지만, 시계열 데이터는 정말 많다는 것은 알고 있습니다.
실제로 데이터 사이언티스트들이 다루는 시계열 데이터의 종류는 얼마나 많나요? 또, 그중에서 박사님은 어떤 데이터를 주로 다루나요?

A. 시계열은 일변량(시간에 따른 단일 변수의 순차적 측정)과 다변량(시간 경과에 따른 여러 관련 변수의 순차적 측정)으로 크게 분류할 수 있습니다.

다시 데이터 유형을 기반으로 시계열을 고정 및 비고정의 2가지 주요 유형으로 분류할 수 있습니다. 고정 데이터에는 시계열의 추세, 계절성, 주기적 및 불규칙성 구성 요소가 없습니다. 비정상 데이터에는 이러한 구성 요소의 일부 또는 전부가 포함됩니다. 실제 시나리오에서 대부분의 시계열 데이터는 고정적이지 않지만 데이터를 고정하고 시계열 예측 모델 개발에 사용할 수 있도록 추세, 계절성, 주기 및 불규칙 구성 요소를 제거해야 합니다.

저는 주로 판매량과 판매 수익 데이터를 대상 변수로 사용합니다. 고객과의 판매 상호 작용(통화, 회의, 커뮤니케이션, 할인, 추가 요금, 송장 조정 등)을 피쳐 세트에 포함하여 예측하는데요. 이러한 데이터는 출하량 데이터에 계절성, 주기적인 패턴 등이 있기 때문에 고정적이지 않습니다.


Q. 시니어 데이터 사이언티스트로서, 프로펫을 활용한 시계열 예측은 어떤 측면에서 가장 유용하다고 생각하시나요?

A. Facebook Prophet 모델은 일변량 시계열 예측, 특히 ‘계절 효과’가 강한 시계열에 가장 적합합니다.
최상의 결과를 얻으려면 여러 시즌의 기록 데이터가 필요합니다. 일별/주별/월별 계절성이 있는 비선형 추세는 예언자 모델을 사용하여 적절하게 처리할 수 있습니다. 또한 휴일 영향을 고려할 수 있습니다. 이상값을 처리하며 일반적으로 누락된 데이터에 대해 강력합니다.

Prophet 모델은 비즈니스 시계열 예측을 위해 특별히 설계되었습니다. 딥러닝 기반 LSTM/Attention 모델과 비교할 때 간단합니다. 복잡한 배경지식은 없지만, 시계열 시리즈에 관심이 있는 모든 사람에게 매우 적합하지요.

prophet

커리어 성장의 지름길이죠

Q. 박사님께서 ‘시계열 예측’을 통해 가장 크게 성과를 거둔 경험이 있으실까요?

A. 네, 있습니다. FedEx 고객을 위한 ‘볼륨 이탈 예측 모델의 개발’이죠.
이 모델은 다음 분기의 고객 이탈을 예측하고, 추가로 이탈 이유를 식별합니다. 이는 컴플레인 등 서비스 격차 문제를 해결하여 고객을 유지하는 데 도움이 되므로 조직의 성장을 주도합니다. 저는 아이디어를 개념화하고, 모델을 만들고, 그것을 생산하는 사람입니다. 회사 경영진으로부터 큰 인정을 받아 승진하게 되었답니다.


Q. 한국의 많은 수강생이 시계열을 배워야 할지, 그러지 않아도 될지 궁금해 합니다. 박사님께서는 시계열을 배워야 하는 이유가 뭐라고 생각하시나요? 데이터 사이언티스트 이외에도, 실제로 어떤 직업군에서 특히 도움이 되나요? (HR 담당자, 마케팅 관련 직무 종사자에게도 도움이 되는 것으로 압니다.)

A. 시계열 예측은 미래를 예측하거나 보는 데 도움이 됩니다. 이는 판매량 예측과 같은 비즈니스 결정과, 주가 예측 등 개인 투자 관련 결정을 내리는 데 매우 중요하죠. 따라서 데이터 사이언티스트 지망생은 시계열 분석을 반드시 배워야 합니다. 시계열 분석은 계량 경제학(성장/침체 예측), 공중 보건(코로나바이러스 확산, 뎅기열, 대기 오염 등 예측), 전력 시스템(시간당 부하/수요 예측)에 사용되므로 기상청 등 각종 예측 기관에서 일하는 전문가에게도 매우 중요합니다.

대부분의 기업은 HR 부서 및 마케팅 부서에서 시계열 분석 및 예측을 사용하고 있습니다. 직원 이직률 예측, 판매 예측, 수요 예측 등이죠. 수학/통계/컴퓨터 과학/공학에 대한 배경 지식이 없는 전문가는 ARMA, ARIMA, SARIMA 등과 같은 고전 모델을 시계열 문제에 사용하기 어렵다는 것을 알 수 있습니다. 마찬가지로 딥 러닝 모델을 사용하려면 전문 지식이 필요합니다.그러나 최소한의 도메인 지식과 기술 전문 지식만이 필요한 Facebook Prophet 모델이 있기에, 시계열을 훨씬 쉽게 할 수 있습니다.

시계열

Q. 현재 FedEx에서, Facebook 프로펫을 활용한 시계열 예측은 어떤 방식으로 활용되고 있나요?

A. 네, 있습니다. FedExFacebook Prophet은 시계열 예측을 위해 FedEx에서 사용됩니다.스테이션 수준에서의 일일 선적량 예측을 예로 들 수 있습니다. FedEx 네트워크는 패키지가 자동으로 분류되는 허브로 구성됩니다. 허브는 픽업 위치의 패키지가 쌓이는 스테이션에서 공급됩니다. 일일 스테이션 수준 예측은 일일 운영 활동을 계획하는 데 도움이 됩니다. 운전자, 여행, 차량 등의 수는 없습니다. Facebook Prophet 모델은 다른 방법보다 10% 더 나은 성능을 제공합니다.


Q. 박사님의 원래 꿈이 궁금합니다. 원래 데이터 사이언티스트를 꿈꾸셨나요?

저는 어린 시절, 조종사가 꿈이었습니다. 데이터 사이언티스트라는 직업은 그 당시에는 그다지 확립되거나 대중적이지 않았어요. 박사 학위를 위해 미국으로 건너갔을 때 생각이 바뀌었고, 데이터 사이언스의 힘과 비전을 깨달았습니다. 데이터 사이언스는 실질적으로 모든 영역에서 작업하고, 의사 결정 프로세스에 가치를 추가할 수 있는 능력을 제공하기 때문이죠.

시계열

내일이 아니라, 오늘 당장 시작해야 합니다

Q. 데이터 엔지니어, 데이터 사이언티스트라는 직업의 미래 유망성이 날이 갈수록 높아지고 있다는 기사를 본 적 있습니다.그에 따라 전 세계 많은 사람이 데이터 사이언티스트가 되고자 준비할 텐데요. 데이터 사이언티스트가 갖춰야 하는 자질이나 역량은 무엇이라고 생각하시나요?

A. 데이터 데이터 사이언스와 데이터 엔지니어링이 모두 인기를 얻고 있습니다. 그와 관련된 고용 시장이 여전히 기하급수적으로 성장하고 있다는 것은 맞습니다. 저는 데이터 사이언스를 소프트웨어 엔지니어링의 ‘로망 버전’으로 봅니다.

첫 번째로, 항상 소프트웨어(웹 애플리케이션, 스마트폰 애플리케이션)를 구축한 다음 머신러닝 또는 AI 모델을 소프트웨어에 통합하는 역량이 필요합니다. 따라서 데이터 사이언티스트는 좋은 프로그래밍 기술이 있어야 합니다. 데이터 사이언티스트의 능력은 그의 프로그래밍 기술에 의해 좌우된다고 말하고 싶습니다.

두 번째로 ‘ETL’이라고도 하는 데이터베이스(oracle, teradata) 및 데이터 플랫폼(azure, aws)과 상호 작용하는 능력입니다. 이를 위해 SQL은 필수 기술입니다. 또한 Ab Initio, Apache Airflow 등과 같은 ETL 도구에 익숙하면 도움이 됩니다.

세 번째로 딥 러닝을 포함하는 머신 러닝입니다. 데이터 과학자 지망생은 시계열 처리, 컴퓨터 비전 및 자연어 처리(최소한 하나 이상)에서 더 깊은 기술을 습득하는 데 집중해야 합니다. 마지막으로 모델 배포를 위한 기술 개발이 매우 필요합니다. Github, Gitlab과 같은 버전 제어 도구 및 Jenkins와 같은 CI/CD 도구에 대한 지식은 MLOps에 필수입니다.

시계열

Q. 박사님께서도 데이터 사이언티스트라는 직업의 미래를 밝게 내다보고 계신가요?

A. 네. 물론이죠. 데이터 사이언티스트는 회사의 주요 의사 결정 프로세스 및 사업 계획에 대한 인사이트를 제공해요. 따라서 최고 경영진과 긴밀하게 협력하죠. 커리어의 성장이 상대적으로 더 빠르며, 최고 경영진 자리에 오를 가능성도 많습니다. 가까운 미래에 수십억 개의 IoT 장치가 추가되면, 스트리밍 데이터의 양이 다양하게 증가합니다. 그러면 데이터 사이언티스트의 역할은 지금보다 훨씬 더 강력해질 것입니다.


Q. 박사님의 수업을 듣고 있거나, 앞으로 들을지도 모르는 수강생들에게 해주고 싶은 한 마디가 있다면?

A. 우선, 데이터 사이언스는 모든 사람을 위한 것임을 말씀드리고 싶습니다. 학문적 배경에 관계없이, 데이터 과학 도구 및 방법의 이점을 얻을 수 있습니다. 생물학, 사회 과학, 공학, 건강, 경제 등 더 많은 분야에서 데이터 사이언스의 적용이 증가하는 것을 확인할 수 있어요.특히 시계열 예측은 수요 예측, 가격 예측, 날씨 예측 등 다양한 응용 분야를 가지고 있기에 꼭 배워야 하는 주제라고 생각합니다.


지금 패캐머들이 읽고있는 BEST 아티클이 궁금하다면

이 글과 연관된 주제의 추천 강의