머신러닝

머신러닝 기반 Anomaly Detection(이상탐지), 현업에서는 이렇게 활용합니다.

#anomaly detection #이상탐지 #머신러닝


머신러닝 기반의 Anomaly Detection, 이상탐지란 무엇일까요?

Anomaly Detection(이상탐지)란, 어떤 데이터안에서 다른 관측값들과 다른 방법에 의해 생성되었다고 의심되는 이상치를 탐지하는 데이터 분석 기법입니다. 지도학습, 준지도학습, 비지도학습 방식으로 이상 현상을 탐지하죠.


그렇다면 Anomaly Detection에 주목하는 이유 그리고 필요한 이유는 무엇일까요?

예를 들어 말씀 드리자면, 사기는 금융기관에 중차대한 문제가 되는데요. 바로 이 점이 금융 분야에서 머신러닝 탐지가 필요한 주된 이유가 됩니다. 데이터 처리속도의 향상, 빈번한 인터넷 사용, 온라인에 저장하는 회사에서의 데이터양의 급증에 따라 데이터 보안 위험도 높아지고 있죠. 이러한 상황에서 현대의 탐지 시스템은 위험 요소 확인을 넘어 새로운 잠재적인 보안 위협이나 실제 보안 위협을 학습하고 조정 해 나가는 것입니다.

Anomaly Detection

그렇다면 실제로 현업에서는 Anomaly Detection을 활용해서 어떤 성과를 내고 있을까요?

컨텐츠 업계 N사 웹툰은 불법 유통 유료 작품 숫자를 연초 대비하여 약 30%를 줄이고 국내, 외 64개의 불법 사이트의 업로드를 중지시키거나 서버를 차단하는 성과를 달성 했는데요.

금융업계 T사에서도 자체 개발 이상행위 탐지 시스템과 연계하여 수많은 악성앱들을 지속적으로 DB에 업데이트 하고 있는데요. 최근 추가된 악성앱만 약 6,000종에 다다른다고 하죠. 이로써 월 평균 550명 이상의 보이스 피싱 피해를 막고 있다고 합니다.

이와 관련해서 좀 더 자세히 이야기를 나눠보기 위해 유통사 대기업 데이터분석가 박지환님을 모셔서 인터뷰를 진행 해 보았습니다.


Q1. 안녕하세요. 현재 진행하고 계신 업무를 포함해서 간단하게 소개 부탁 드립니다.

안녕하세요. 현재 유통 대기업에서 Data Analyst로 근무하고 있는 박지환 입니다. 직무는 DA이지만 Data Scientist 업무도 병행하고 있습니다.
저는 현업의 비지니스 문제를 해결하기 위해 ‘데이터 분석’이라는 도구(tool)를 이용하여 다양한 활동들을 수행하고 있습니다. 최근 수행했던 프로젝트로는 1) 매출 감소 원인 분석 2) 구매 가능성이 높은 고객 타겟 마케팅을 위한 ML 예측 모델링 3) 고객 데이터 분석을 통한 고객 인사이트 리포트 발행이 있습니다. SQL을 활용하여 데이터를 추출하고, Python 언어를 사용하여 고객 데이터 분석 및 모델링 또한 수행하며 다양한 BI tool을 활용하여 대시보드 개발도 수행하고 있습니다.


Q2. 이전에는 W은행, L전자에서 근무하신 것으로 들었는데요. 이전 직장에서 진행했던 업무에 대해서 소개 부탁 드리겠습니다.

지금은 유통업계에 몸을 담고 있지만, 과거 L전자 재직 당시에는 주로 공정 데이터 분석을 수행했습니다.
주요 수행한 프로젝트로는 1) 센서 데이터 활용 장비 이상 진단 2) 빅데이터 분석 기반 신규 서비스 기획 3) Smart Factory Data 구축 사업 등이 있습니다. 아무래도 제조 영역의 회사이다 보니 주로 공정 센서 데이터 분석을 수행했었습니다.
W은행 재직 당시에는 개인고객의 거래 데이터를 주로 분석하였고, 주요 수행한 프로젝트로는 1) 신용카드 가입 가능성 높은 고객 예측 모델링 2) 이탈 가능성이 높은 고객 예측 모델링이 있습니다. L전자와는 정반대의 개인 고객에 대한 데이터 분석 업무가 주를 이루었고, 특히 예측 모델링 업무를 주도적으로 수행했었습니다.


Q3. 위에서 말씀주신것처럼 품질 불량 주요 인자 도출, 센서데이터 활용 이상진단 및 예측 프로젝트, 신용카드 신규 가입 고객 예측/금융상품 가입 고객 예측 프로젝트, 신규고객 대상 구매 고객 예측/외부 데이터 활용 데이터 신규 과제 기획 프로젝트 등 다양한 프로젝트 경력이 있으신 것으로 알고 있는데요.
혹시 제일 기억에 남는 프로젝트는 어떤 것이며, 기억에 남는 이유를 말씀 부탁 드립니다.


가장 기억에 남는 프로젝트는 품질 불량 주요 인자 도출 프로젝트입니다. 다들 데이터 분석가라고 하면 고정된 site(장소)에서 데이터 분석에만 집중한다고 생각 하실 수 있으시겠지만, 제조 영역에 데이터 분석가들은 현장에 직접 가서 프로젝트를 수행하는 경우도 많습니다.
해당 프로젝트는 미국의 신공장 건설에 따라 Smart Factory를 구축해야하는 큰 사업이였습니다. 데이터 분석가로서 현장에 직접 나가, 데이터가 어떻게 수집되는지? 현장에서 필요한 분석이 무엇인지? 어떠한 형태로 데이터 분석을 통해 성과를 창출할 것인지? 에대해 심도있게 고민할 수 있었던 프로젝트였기 때문에 가장 기억에 남는 것 같습니다. 해당 프로젝트에서의 주요한 데이터 분석 주제도 'Anomaly Detection(이상탐지)'였고요.


Q4. 앞으로 해당 분야 Anomaly Detection(이상탐지)이 얼마나, 어떠한 방향으로 발전 할 것이라고 생각하실까요?

현재 이상탐지 주제는 초기 단계라고 생각합니다. 그런만큼 기초와 문제해결 방법에 대한 이상탐지 문제 해결 프레임에 대해 소개하는 방향의 강의가 필요한거고요. 미래에 해당 주제에 대한 연구나 강의가 더 발전된다면 사전 이상탐지뿐만 아니라 미래의 이상 현상을 예측하는 범위까지 확장되지 않을까 생각합니다.

Anomaly Detection 주제가 현재는 초기 단계이며, 이러한만큼 기초와 문제해결 방법에 대한 Anomaly Detection 문제 해결 프레임에 대해 소개하는 방향의 강의가 필요하다고 말씀 주셨는데요.

이러한 방향성에서 패스트캠퍼스가 유통사 대기업 데이터분석가 박지환님과 함께 강의를 기획 해 보았습니다. 관련하여 이야기를 좀 더 나눠보도록 할게요.

Q5. 보통, 사람들이 이 주제 ‘Anomaly Detection(이상 탐지)’을 학습할 때 겪는 어려움이 무엇이며, 강의에서 진행 해 주시는 실습이 어떤 사람들에게 도움이 될 것이라고 생각하실까요?

‘Anomaly Detection(이상탐지)에서 가장 어려운 점은 이상이란 현상을 어떻게 정의하고, 해당 문제 Case에 맞는 알고리즘을 탐색하는 과정이라고 생각합니다. 이상 탐지를 할 수 있는 알고리즘은 상당히 다양하고 복잡합니다. 그 중에서 내가 직면한 문제에 어떤 알고리즘을 효과적으로 사용해야하는지 탐색하는 과정에서 많은 시간을 소비한다고 생각합니다.
이 강의에서는 데이터와 해결하려는 문제에 따라 이상 탐지 문제유형를 정의하고, 적절한 알고리즘을 탐색하는 과정을 실습을 통해 중점적으로 다루려고 합니다. 이 강의를 통해 실제 이상 탐지를 수행할 때 효과적으로 분석 계획을 수립하고, 빠른 시간안에 문제를 해결할 수 있도록 지원하려고 합니다.


Q6. 혹시 강의하시는 부분 중 가장 강조하고 싶은 부분이 있으실까요?

Anomaly Detection(이상탐지)라는 주제는 과거부터 연구 주제로 많은 부분이 다뤄져왔습니다. 하지만 실제 현장에서 적용하기에는 매우 어려운 주제라고 할 수 있습니다. 그 이유는 현장에 데이터는 모든 특성이 제각각이고(Case by Case) 이론상 알려져있는 것들을 적용하더라도 좋은 효과를 보지 못하는 경우가 대부분이기 때문입니다. 따라서 Anomaly Detection(이상탐지)의 대표적인 알고리즘을 파악하고, 수차례 Test를 통해 최적의 Best 방법을 찾는 것이 가장 현실적인 Anomaly Detection(이상탐지) 문제 해결방법이라고 생각합니다.
해당 강의에서는 Anomaly Detection(이상탐지) 문제를 해결하기 위한 대표적인 알고리즘에 대한 설명과 구현 방법, 그리고 장단점까지 소개를 시작으로 실제 실습을 통해 적절한 알고리즘을 채택하는 방법까지 강의를 할 예정입니다. 실무에 이상 탐지 해결 노하우 습득을 통해서 많은 것을 배워갔으면 좋겠습니다.


Q7. 해당 분야와 관련하여 강사님께서 직접 얻으신 인사이트나 수강생들에게 전달해주실 조언의 한마디 부탁 드립니다.

우리 강의는 단순히 복잡한 이상 탐지 알고리즘 지루하게 배우는 강의는 아니라고 생각합니다. 해당 강의를 통해 이상 탐지라는 현업의 실무 문제를 해결하기 위한 방법론과 노하우를 습득하시고, 이를 활용하여 현업의 문제를 효과적으로 해결할 수 있는 기술과 지식의 바탕으로 활용하셨으면 좋겠습니다.



오늘 이렇게 유통사 대기업 데이터분석가 박지환님을 만나서 이야기를 들어보았는데요.

풍부한 경험을 바탕으로, Anomaly Detection(이상탐지)에 대한 디테일한 내용을 전수하고자 하는 마음이 느껴졌습니다. 위의 인터뷰를 진행한 박지환님과 다른 현업 강사님이 함께 준비한 ‘25개 사례로 배우는 
Anomaly Detection 알고리즘 구현과 실전 프로젝트’ 강의가 궁금하시다면, 아래 링크를 클릭해서 확인 해 주세요.

‘25개 사례로 배우는 
Anomaly Detection 알고리즘 구현과 실전 프로젝트’

✔ Anomaly Detection(이상탐지)에 관한 이론부터 실습까지 한 번에 모두 끝낼 수 있는 커리큘럼

✔ 복잡하고 지루한 이론 수업이 아닌 실무 분석 시 필요한 핵심 Key Point 전달!

✔ Anomaly Detection(이상탐지)에서 활용되고 있는 지도학습부터 비지도학습 방법론까지 모두 다루는 강의

✔ 각 산업군 도메인 별 이상탐지 문제 해결 방법과 다수의 Anomaly Detection(이상탐지) 프로젝트 수행 경험을 통한 강사 노하우 전달

✔ 알고리즘 구현 강의 포함, 실전 데이터에 Anomaly Detection(이상탐지) 알고리즘을 적용해보면서 실무 해결 능력 향상

✔ 모델링 뿐만 아니라 과제 기획부터 Anomaly Detection(이상탐지) 프로젝트 수행 시 부딪히는 문제를 해결하기까지 전반적인 프로세스 설계 노하우 제공


지금 패캐머들이 읽고있는 BEST 아티클이 궁금하다면

이 글과 연관된 주제의 추천 강의