이미지인식

Meta 연구원 문경식이 말하는 Human Pose Estimation

#컴퓨터비전 #문경식 #딥러닝/인공지능


메타버스, 자율주행자동차, VR/AR ···
차세대 기술로 각광받고 있는 이 기술들의 선두주자가 되기 위해 전세계 유수 기업들이 다방면으로 투자를 하고 있습니다.
그 중에서도 비대면 시대를 맞이하며 급격한 성장을 보인 메타버스는 아직까지도 우리에게 새로운 뉴스거리를 가져다 주고 있습니다.

혹시 최근 Meta(과거 페이스북)에서 메타버스 기술 육성에 막대한 규모의 예산을 쏟고 있다는 뉴스를 들어보셨나요?
글로벌 기업들까지 뛰어들고 있는 메타버스, 그리고 메타버스 구축을 위해 요구되는 컴퓨터비전의 Human Pose Estimation 기술.

Human Pose Estimation은 무엇이며 그 방향은 어디로 향하고 있을까요?



오늘은 국내 Human Pose Estimation 분야 전문가이자 메타버스 구축을 위해 힘쓰고 있는 기업 Meta가 선택한 연구원,
문경식 박사
를 만나 그 답을 들어보려고 합니다.

데이터 엔지니어링

1. 간단한 자기소개 부탁드립니다.

안녕하세요, Meta 연구원이자 서울대학교 컴퓨터비전 연구실 박사인 문경식입니다.
저는 지금까지 컴퓨터비전 분야 최우수 컨퍼런스인 CVPR/ICCV/ECCV 에 9개의 논문 출판했고,
2020년 Meta와의 협업 결과물인 DeepHandMesh(High-Fidelity 3D Hand Modeling) 논문이 Oral 발표에 선정되기도 했습니다.

2. Human Pose Estimation 분야로 연구를 시작하시게 된 배경 및 계기는 무엇인가요?

3D 인공지능 기술을 필두로 하여 메타버스의 실현이 다가오고 있습니다.
현실 세계와 같은 메타버스를 위해서는 사람의 움직임을 3D 공간으로 정확하게 투영할 수 있는 기술이 필수적입니다.
3D Human Pose Estimation은 사람의 이미지나 비디오로부터 3D pose를 추정하여
궁극적으로는 사람의 움직임을 3D 공간으로 투영하는 것을 목표로 하고 있습니다.
이 기술은 최신 3D 인공지능 기술의 발전에 힘입어 기존의 marker기반 모션 캡쳐를 marker-less 모션 캡쳐로 바꿀 수 있는 잠재력을 갖고 있습니다.
이것은 marker와 studio로 이루어진 특수 장비없이 일상생활에서 촬영한 이미지나 비디오로부터 모션 캡쳐가 가능하다는 것을 의미합니다.
해외의 유명 연구 그룹들에서 3D Human Pose Estimation이 활발히 연구가 되고 있는 반면,
국내에서는 이를 위한 활발한 연구가 진행되고 있지 않았습니다.
지난 수 년동안의 박사학위기간동안 저는 국내 뿐만 아니라 세계적으로 독보적인 3DHuman Pose Estimation 성과를 내는데 성공하였습니다.

3. 그렇다면 3D Human Pose Estimation을 공부해야 하는 이유는 무엇일까요?

3D Human Pose Estimation은 2D Human Pose Estimation과는 다르게 체계적인 공부와 훈련 없이는
그것의 본질에 가까이 가기가 매우 어렵습니다.
그리고 2D와는 다르게 3D Human Pose Estimation은 novel-view rendering과 animation을 가능하게 하기 때문에
메타버스 관련 어플리케이션에서는 필수적인 요소입니다.
또한 3D Human Pose Estimation에서 습득한 kinematic chain과 관련된 지식들은 robotics에서도 사용될 수 있고,
rendering과 rasterization과 관련된 지식들은 computer graphics에서도 사용될 수 있습니다.


강사님의 설명을 듣고 나니 Human Pose Estimation이 왜 주목받고 있는 기술인지 실감이 나는데요,
국내에서는 아직 Human Pose Estimation을 제대로 배우기 힘들다는 것이 아쉬운 점인 것 같습니다.

이런 아쉬움을 해결하기 위해 문경식 박사님에게 배우는 국내유일 단일 이미지인식을 통한 Human Pose Estimation강의가 오픈되었는데,
이 강의가 왜 특별하며 강의에서 어떤 것을 얻어갈 수 있는지에 대한 이야기를 나눠보았습니다.


4. 다른 컴퓨터비전 강의와 비교했을 때 이 강의의 특징 및 장점은 무엇이라고 생각하시나요?

우선 국내 유일 3D Human Pose Estimation 분야 강의라는 점이 가장 눈에 띄는 부분인 것 같습니다.
그리고 2D Human Pose Estimation과 3D Human Pose Estimation을 모두 다룬다는 점,
아직 학계에서도 풀리지 않은 Advanced 3D Human Pose Estimation까지 포함된 강의라는 지점도 장점으로 생각할 수 있을 것 같고요.
마지막으로 Human pose estimation 분야에서 국내 뿐 아니라 세계적으로 독보적인 실적을 낸 저자에게 직접 배우는 강의 (top-tier conference 논문 총 9개, 1저자 논문 총 7개)라는 것도 장점이 되겠죠?

5. 이 강의를 어떤 사람이 들으면 좋을지, 그리고 수강생들이 어떤 것을 얻어갈 수 있을지 궁금합니다.

3D Human Pose Estimation을 처음부터 체계적으로 공부하고 싶은 관련 전공자나 대학원생과 메타버스, 가상 아바타, 디지털 휴먼과 같은 키워드에 관심이 있고 이와 관련된 어플리케이션을 개발해보고자 하는 개발자는 물론 3D 컴퓨터비전에 관심이 있으신 분까지 수강할 수 있는 강의입니다.
강의를 수강하고 나면 3D Human Pose Estimation 분야에 대한 전반적이고 깊은 이해를 얻을 수 있게 되고,
3D Human Pose Estimation 시스템을 직접 디자인하고 학습 및 테스트를 해볼 수 있게 되실 겁니다.
아직 풀리지 않은 3D Human Pose Estimation 문제 중 재미있어 보이는 것을 찾아내어 문제를 직접 풀어볼 수 있는 수준으로 성장할 수 있을 거라고 생각합니다.

6. 마지막으로 앞으로 Human Pose Estimation이 얼마나 더 발전할 것이라고 생각하시는지, 그리고 어떤 방향으로 발전할 것인지 강사님의 의견을 들어보고 싶습니다.

3D Human Pose Estimation은 딥러닝 이전의 컴퓨터비전 초창기부터 시도되어왔습니다.
최근 들어서는 data-driven 학습방식인 딥러닝의 발전이 3D Human Pose Estimation의 정확도를 크게 향상시켰습니다.
하지만 여전히 일상생활에서의 이미지 (in-the-wild images)에서의 3D Human Pose Estimation은 도전적이고 상호작용하는 두 손의 3D pose estimation 등 풀리지 않은 문제들이 많습니다.
앞으로 더 다양한 고품질의 데이터 캡쳐와 강건한 알고리즘의 개발이 이루어진다면 훨씬 더 정확한 3D Human Pose Estimation 시스템이 개발될 수 있을 것이라고 생각하며 궁극적으로는 메타버스의 실현이 가능할 것이라고 생각합니다.


강사님이 말씀하셨듯이 컴퓨터비전의 HPE 기술, 그 중에서도 3D HPE는 체계적 공부와 훈련이 필요한 분야입니다.
그리고 3D HPE를 제대로 이해하기 위해서는 2D HPE에 대한 이해가 선행되어야하며, HPE에 대한 개념도 필수적으로 공부되어야하죠.
물론 이론적 이해에서 끝날 것이 아니라, 실습을 통해 지금까지 이해한 것을 확실히 나의 것으로 만들 필요가 있습니다.
HPE를 제대로 공부해보고 싶은 분들을 위해 HPE의 개요는 물론 2D HPE부터 3D HPE, 그리고 Pose2Pose와 3DMPPE 등
다양한 논문 코드 실습까지 체계적으로 배울 수 있는 강의가 준비
되어있습니다.


✔ Human Pose Estimation
3D 인공지능 기술의 발전이 어떻게 메타버스의 실현에 도움이 되는지와 human pose estimation이 무엇인지를 다룹니다.
✔ 2D Human Pose Estimation
3D 환경에서 인간의 자세를 추정하는 것은 2D에서의 추정을 기반으로 두고 있습니다. 3D HPE를 학습하기에 앞서 2D에서의 Human pose Estimation을 학습합니다.
✔ 3D Human Pose Estimation
3D human pose estimation를 위한 기본 지식과 분류를 먼저 소개합니다. 그리고 분류에 따른 최신 논문들을 소개해 드립니다.
✔ Advanced 3D Human Pose Estimation
3D환경에서 단순히 사람의 자세를 추정하는 것을 넘어서 아직 풀리지 않은 매우 어려운 문제들을 풀고자 시도한 논문들을 소개해 드립니다. 학계에서도 풀리지 않은 최신 주제들을 섭렵하고 인사이트 도출까지 도전해보세요.
✔ Interhand2.6M, Pose2Pose와 3DMPPE를 포함한 실습 6가지
Interhand2.6M: 상호작용하는 두 손의 경우 비슷하게 생긴 손가락들의 생김새와 손가락끼리의 가려짐 때문에 분석하기가 매우 어렵지만, 이를 가능케 한 문경식 박사의 논문
Pose2Pose: 3D Whole-Body를 한번에 3D 공간상에 복원하는 것을 가능케 한 문경식 박사의 논문
3DMPPE: 단일 이미지로부터 처음으로 여러 사람의 3D pose estimation을 가능하게 해서 카메라로부터 사람의 거리를 복원할 수 있게 해준 문경식 박사의 논문


지금 패캐머들이 읽고있는 BEST 아티클이 궁금하다면

이 글과 연관된 주제의 추천 강의