딥러닝 전문가라면 앞으로 꼭 배워야 할 기술? 메타버스, AR/VR 필수 3D 컴퓨터 비전 기술과 NeRF

#컴퓨터비전 #3D컴퓨터비전 #NeRF #NeuralFields


메타버스, AR/VR과 딥러닝이 무슨 관계..?

조금 더 앞선 미래에는 메타버스, 증강현실, 가상현실 개념이 일상에 당연해지는 때가 올 것이라 합니다. 이 어플리케이션의 핵심 중 하나는 현실에 있는 걸 가상세계로 가져오는 부분인데요. 이를 위해 3차원 모델을 만드는 기술이 필요합니다. 그 중심에 있는 3D 컴퓨터 비전 기술에 대해 알아보고자, AAAI, CVPR, ECCV, ICCV Area Chair, 학회 논문 200개 이상 리뷰한 분야 대표 전문가 이광무 교수님께 지금 가장 주목받는 딥러닝 기술에 대해 여쭤봤습니다.

3D 컴퓨터 비전은 수학적 계산을 기반으로 카메라의 위치를 파악하고, 무수히 많은 점과 점을 서로 연결하여 3차원 정보를 복원하는 기술입니다. 이렇게 복원한 3차원 정보들은 실제 건물의 외형, 사람의 얼굴 등을 최대한 원본에 가깝게 복원할 수 있습니다.

간단히 교수님 소개 부탁드립니다.

안녕하세요. 캐나다 벤쿠버에 있는 British Columbia 대학의 조교수로 근무하고 있는 이광무입니다. 주로 컴퓨터 비전 분야 중에서도 3D 비전, 특히 3차원 복원과 관련된 기술들을 다루고 있습니다.

지금 3D 컴퓨터 비전 분야에서 가장 주목 받는 기술이 무엇인가요?

NeRF나 Neural Fields라고 볼 수 있을 것 같아요. 지금 나오는 논문들 중 대부분이 NeRF와 관련된 것인 만큼, 3차원 비전 분야에서 NeRF나 Neural Fields로 대표되는 방법들이 대세가 되었다고 해도 과언이 아닌데요. 3D 컴퓨터 비전 분야에서는 2차원 데이터를 3차원 데이터로 연결하는 방법에 대한 고민이 지속적으로 있었거든요. 그런데 이 NeRF 기술을 활용해서 대단히 효과적으로 해결할 수 있는 사례들이 지속적으로 확인되고 있어요.

최근 학계에 큰 드렌트 중 하나인 NeRF 기반의 방법 Volume Rendering 과 딥러닝 융합 케이스

많은 사람들이 앞다투어 연구하고 있는 이유에 대해 좀 더 자세히 설명해주실 수 있나요?

많은 사람들이 갑자기 달려든 가장 큰 이유는 '결과가 예뻐서'라고 생각해요. 이제 3차원 렌더링을 하면 만들어진 이미지가 보이게 되는데요. NeRF 방식을 취하면 결과물이 사진으로 찍은 것인지, Network가 만든 것인지 구분 못하는 경우가 많을 정도로 결과가 비쥬얼적으로 우수해요. 그리고 기술 자체도 여타 많은 기술과 융합시키기 되게 좋은 특성이 있어요. 알고리즘을 개선함에 따라 비쥬얼적인 효과들을 확실하게 볼 수 있으니 연구자들이 많은 흥미를 가질 수밖에 없어요.

NeRF가 기존의 어떤 문제를 대단히 효과적으로 해결해주고 있는 건가요?

예를 들어 설명하자면, 기존 방법에서는 어떤 물체가 있을 때 반사되는 빛을 모델링하기 위해 모든 경우의 수를 다 보여줘야 했어요. 그러나 Neural Fields 방식을 취하면 모든 경우를 보여주지 않고 빛의 일부 경로만 보고도 모델링이 가능해져요. 네트워크가 담당해야 하는 부분이 극히 줄어들기 때문에 나머지 복잡한 현상들은 새로 학습을 하지 않고도 모델링할 수 있어요. 이건 일종의 패러다임 전환이에요. 기존에는 Deep Network 통해서 그냥 결과를 내보냈다면, NerRF 기술을 통해 과정상에서 부분적으로 모델링하기 힘든 부분 일부만 Neural Network에 맡기고 물리적인 수식 그대로 가져다 값을 합치는 식으로 방식이 아예 변화한 거죠.

훨씬 효율적인 방법으로 좋은 결과물을 얻게 된 부분이 있네요. 아직 NeRF 기술이 상용화되지 않았다고 들었는데요. 앞으로 시장에 어떤 영향을 미칠 수 있을까요?

누구나 3차원 모델 만드는 것이 가능한 세상에 한 발짝 더 다가서게 할 것이라 생각해요. 특별한 장비 없이, 내가 찍은 이미지들만으로 3차원 모델을 구현할 수 있게 되는 것이지요. 과거에 사진이나 영상 편집 기술은 테크닉을 아는 사람들만이 할 수 있던 것이었지만, 요즘은 일반 대중도 어플을 통해서 쉽게 할 수 있잖아요. 그런 것과 비슷한 느낌이에요. 이런 것들이 시장에 미치는 영향은 크지 않을까요?


강의에서는 이 Neural Fields도 다루지만 3D 컴퓨터 비전 기본 개념의 전반을 다 설명해주신다고 들었어요. 혹시 전통적인 지식들을 모두 다루는 이유가 있으실까요?

이 강의를 통해 최종적으로 만드는 어플리케이션은 Neural field지만 전체 커리큘럼은 기반 기술에 좀 더 초점을 맞췄어요. 아무래도 기존 방식의 단점을 이해하고 개선하려면 기본 지식이 탄탄하게 받쳐줘야 한다고 생각하거든요. 그래서 3D 컴퓨터 비전의 전통적인 지식들을 이 강의에서 제대로 소개해주고 싶었어요. 특히 camera pose estimation 과정, 그 과정에 필요한 에피폴라 기학학과 같은 수학적 모델, neural field를 학습하는 네트워크가 갖는 특성 같은 기본 개념들을 모른 채 NeRF를 제대로 활용하기 어려울 거예요.

Epipolar Geometry 와 딥러닝을 융합하여
두배에 달하는 성능 향상을 보인 케이스

이 강의가 어떤 분들에게 도움이 될 수 있을까요?

3d 비전에 입문하시고 싶으신 분들, 이미 3d 비전 쪽에서 NeRF를 연구를 하시는 분들도 도움이 되실 듯해요. 공부하시는 분들은 아시겠지만 개념이 하나로 정리된 강의는 찾기가 어렵거든요. 제가 대학원생 때 이 강의를 들었으면 좋았겠다 싶은 마음으로 커리큘럼을 구성했어요. 실무에 적용시키고 싶으신 분들도 보시면 지금 활용하고 있는 기술에 대한 이해가 높아질 수 있을 것 같아요.

특히 실무에 계신 분들은 이 강의를 어떻게 활용하시면 좋을까요?

현업에 계신 분들이 NeRF를 적용하실 때 가장 처음 겪으실 문제는, 아마도 camera pose가 제대로 안 나오는 점일 거예요. 오히려 후속의 여거 과정들보다 첫 단계라고 할 수 있는 카메라 포즈, 위치에 대한 정보를 획득하는 부분이 잘못될 확률이 높다고 생각해요. 논문에 나온 데이터들은 이미 상당히 후처리된 데이터인데, 실무에서 사용하시는 로우데이터는 그렇지 못하기 때문이에요. 작업하시며 어디에서 문제가 발생했고, 어떻게 해결해야 할지를 알기 위해서는 가장 기초인 카메라와 카메라 포즈에 대한 개념이 꼭 필요하게 됩니다.

머지 않은 미래에 큰 영향을 줄 수밖에 없는 기술들을 개발하고 계신 것 같아요. 실제로 교수님은 연구하실 때 어떤 마음을 가지고 임하시는지 궁금하네요.

이게 과연 실생활에 도움이 될 수 있는 연구인지 고민합니다. 기존 기술이 실제 삶에 적용되려면 무엇이 부족하고, 어떤 문제를 해결해야 할까를 탐구하려고 노력해요. 제가 컴퓨터 비전의 여러 분야 중 3D 비전 분야를 택해 연구하고 있는 이유도, 이 분야는 실생활에 대한 이해가 절대적으로 필요하기 때문이에요. 우리 삶에 도움이 될 수 있는 자동화된 agent들이 현실에서 작동하려면 실제 현실에 대해 이해해야 하고, 내가 어떤 공간에 있는지 이해해야 하죠. 이런 부분까지 이해하고 만들어진 기반 기술은 실생활의 문제를 해결하는 데 분명 도움이 될 것이라 생각합니다.

마지막으로 수강생분들, 강의에 관심 있으신 분들께 한 마디 부탁드립니다.

3D 비전 분야에서 제가 생각하기에 핵심이라고 생각하는 내용들을 정리해봤습니다. 이 분야에 관심 있으신 분들에게 이것만은 알아야 한다에 해당하는 개념들을 모두 챙겨가실 수 있을 거예요. 도움이 될 수 있었으면 좋겠습니다.


지금 패캐머들이 읽고있는 BEST 아티클이 궁금하다면?

이 글과 연관된 주제의 추천 강의