생성모델

딥러닝 알고리즘 GAN 기술 트렌드 한 방에 정리

#GAN #생성모델 #딥러닝 강의


딥러닝 강의



머신러닝에는 여러 학습법이 존재하며, 인간의 뇌와 뉴런을 모방한 방식인 신경망 학습의 좀 더 심화된 버전이 바로 딥러닝인데요. 딥러닝 알고리즘 중 하나가 GAN(Generative Adversarial Network)이죠. 비교적 최근에 고안되어 주목받고 있는 기술이고요. GAN은 생성적 적대 신경망으로 대립적 네트워크를 생성하는 인공신경망입니다. 특히 이미지를 생성하는데 있어서 뛰어난 성능을 보여주죠. 데이터셋에 없는 사람의 얼굴을 스스로 생성하거나, 고흐의 화풍을 모방하여 새로운 그림을 그리기도 합니다. 실제로 GAN 기술로 1만 5천개의 그림을 학습한 후 생성한 그림이 크리스티 경매에서 43만달러에 낙찰되기도 했죠.

오늘은 이러한 딥러닝 알고리즘 GAN 기술 트렌드를 한방에 정리해 줄 전문가 Bradley Kim님과 인터뷰를 해보려고 합니다.


Q1. 간단한 소개 부탁드립니다.

안녕하세요. 저는 서울대학교 박사과정으로 컴퓨터비전 분야를 연구하고 있고요. 카이스트 Bio&Brain 공학 석사과정에 있었습니다.

Q2. 앞서 말씀주신 것처럼, 이러한 진로 방향을 설정하신 배경 혹은 계기가 궁금합니다.

학부시절 알파고, 객체 탐지 등의 딥러닝 기술의 발전에 매료되어 이미지 프로세싱, 컴퓨터비전 분야로 대학원을 진학하게 되었습니다. 대학원 진학 이후에는 GAN을 비롯한 생성 모델들의 다양한 이론들, 다양한 활용성, 놀라운 결과들에 흥미를 느끼게 되어 박사과정 동안 집중해서 연구하게 되었고요.

Q3. 그렇다면, GAN 알고리즘의 발전 현황에 대해서 간단하게 말씀 해 주실 수 있을까요?

처음 GAN이 발표되고 난 이후에, 초반에는 WGAN, EBGAN, LSGAN 과 같은 GAN에 관한 수학적인 이론, 안정적인 학습에 관한 연구들이 주를 이루었습니다. 그 이후에는 ProGAN, StyleGAN1,2,3 과 같은 모델의 구조적 변화, 다양한 학습 테크닉에 관한 연구들을 통해 고화질의 이미지를 생성할 수 있도록 발전하게 되었습니다.

이후에는 Conditional GAN을 기반으로 이미지 변환, 이미지 향상등과 같은 다양한 GAN의 활용 기술, 그리고 적은 데이터를 가지고도 학습을 할 수 있는 Data efficient한 모델들이 발전하였습니다.

최근에는 GAN을 1D, 2D 데이터를 넘어 3D, Video에 활용하고, 한가지 Type의 데이터가 아닌 여러 종류의 데이터를 가지고 GAN을 활용하는 Multi-modality에 관한 연구들을 통해 발전을 이루고 있습니다.

gan

Q4. 현재 GAN을 어떻게 활용하고 있는지 다양한 활용 사례에 대해서도 말씀 부탁 드립니다.

이미지의 스타일을 변환하는 Style transfer, 이미지의 특정한 부분을 편집하는 Image editing, 새로운 옷을 가상으로 먼저 입혀보는 Virtual-try on, 저화질의 이미지를 고화질로 변환하는 Super-resolution, 텍스트 기반으로 이미지를 조작하는 Text-guided image manipulation, 실제와 같은 음성을 합성하는 Speech synthesis 등에 활용될 수 있습니다.

Q5. 그렇다면 앞으로는 GAN을 활용한 기술이 얼마나 더 발전할 것이라고 생각하시는지, 어떠한 방향으로 발전할 것이라고 생각하시는지 궁금합니다.

3D와 Video같은 고차원의 데이터 생성에 관한 GAN 연구가 더욱 발전할 것 같습니다.

특히, Video 생성모델 같은 경우는 아직 부족한 부분이 많아 많은 발전이 기대되는 분야 중 하나입니다. 또한 Multi-modal 데이터에 관한 연구들의 발전이 지속될 것 같습니다. 현재는 텍스트-이미지 기반의 연구들이 주를 이루고 있지만 앞으로는 음성데이터-이미지, 텍스트-비디오 등 다양한 조합의 데이터를 활용한 GAN 모델이 발전을 이루게 될 것 같습니다.

Q6. 이 분야의 매력은 어떤 점이라고 느끼시고 공부를 계속 하게 되셨는지 궁금합니다.

먼저 생성모델의 경우 결과들이 신기하고 재밌는 것들이 많아 계속 흥미를 가지게 되었던 것 같습니다.

실제 사진과 같은 이미지의 생성, 전문 디자이너 수준의 이미지 편집, 실제 목소리와 같은 음성합성, 감미로운 음악 생성 등의 결과들을 보면 이 분야에 대해 흥미를 가지지 않을 수 없는 것 같습니다. 또한 이런 생성모델의 시각/청각적으로 우수한 결과들의 기반에 숨어있는 다양한 수학적인 이론들도 매력적입니다. 단순히 잘되는 것이 아니라, 확률이론, 통계이론, 정보이론 등에 관한 수학적인 장치들을 기반으로 이뤄졌다는 것에 더욱 큰 흥미를 가지게 되었던 것 같습니다.

Q7. 이 분야와 관련하여 강사님께서 직접 얻으신 인사이트가 있으시다면, 이 글을 읽는 분들께 조언의 한 마디 부탁 드립니다.

연구자 분들에게 하고 싶은 이야기 중 하나는 ‘보이는 것이 다가 아니다’ 입니다.

아무리 논문상으로는 완벽해 보이는 연구일지라도, 재현해보고 가지고 다양한 실험들을 하다보면 여러 한계와 문제점이 보이게 되는 것 같습니다. 이러한 점들을 잘 파고들다 보면 이 분야의 발전을 이루는 좋은 연구를 할 수 있게 되는 것 같습니다.

Q8. 그렇다면 Bradley Kim님이 느끼시는 GAN의 트렌드는 어떨까요?

최근에는 GAN을 1D, 2D 데이터를 넘어 3D, Video에 활용하고, 한가지 Type의 데이터가 아닌 여러 종류의 데이터를 가지고 GAN을 활용하는 Multi-modality에 관한 연구들을 통해 발전을 이루고 있습니다.

특히 3D 생성 모델과 텍스트 기반 이미지 생성/편집기술에 최근 연구자들이 큰 관심을 가지고 있습니다.

딥러닝 강의

최근 특히 3D 생성 모델과 텍스트 기반 이미지 생성/편집기술에 연구자들이 큰 관심을 가지고 있다고 말씀 주셨는데요. 이러한 관점에서 Bradley Kim님과 패스트캠퍼스가 함께 강의를 기획하게 되었습니다. 딥러닝 강의 초격차 패키지 : 모델 구현으로 끝내는 GAN 완전정복 강의의 part 6, 7에서 이에 관한 모델들에 대해서 다루고 있고요. 그렇다면 딥러닝 강의 초격차 패키지 : 모델 구현으로 끝내는 GAN 완전정복 강의에 대해서 좀 더 이야기를 나누어 보도록 하겠습니다.


Q9. 보통 사람들이 GAN 분야에 대해서 학습할 때 겪는 어려움은 무엇이며, 이번 딥러닝 강의에서 진행 해 주시는 내용이 어떤 사람들에게 도움이 될 것이라고 생각하실까요?

GAN은 Adversarial learning의 특성상 학습이 불안정하기 때문에 학습하기 쉬운 모델은 아닙니다. 이를 위해 GAN의 학습을 안정화 하기 위한 objective의 발전, Parameter setting에 관한 다양한 연구들이 진행되었는데요. 이에 관한 내용을 Part 32, 3에서 찾아볼 수 있습니다.

GAN이 좋은성능을 보여주도록 하기 위해서는 학습에 수많은 데이터가 필요하다고 알려져 있습니다. 하지만 현업에서 이러한 많은 데이터를 모으는 것이 쉽지가 않은데요. 이러한 문제를 해결하기 위한 Transfer learning, Fine-tuning과 같은 기법들을 Part3에서 보실 수 있습니다.

또한 생성모델의 경우 기존의 정확도, 민감도 같은 수치로 평가하기가 까다롭다는 문제가 있습니다. 이러한 GAN의 평가 기법들에 관한 내용을 Part 2에 소개하였습니다.

그리고 GAN에 관한 연구가 유행함에 따라 너무 많은 종류의 GAN모델들이 나와 어떤 논문을 봐야할지 어려울 수 있습니다. 이 강의에서는 수 많은 GAN 모델 중 핵심적인 모델들을 골라 소개하였습니다.

Q10. 마지막으로 이번에 딥러닝 강의에서 진행하시는 부분 중 가장 강조하고 싶은 부분이 있다면 말씀 부탁 드립니다.

모든 부분이 의미가 있기 때문에 제가 특정한 부분을 강조하기는 어려울 것 같습니다. 하지만 수강자의 목적에 따라서 집중하면 좋을 파트를 추천할 수 있습니다.

GAN의 이론적인 기반 및 GAN 자체의 발전에 관심이 있으신 분들은 Part 1,2,3, 4를 GAN의 다양한 활용에 관심이 있으신 분들은 Part 5,6,7을 중심으로 봐주시면 좋을 것 같습니다.

이번 딥러닝 강의 '초격차 패키지 : 모델 구현으로 끝내는 GAN 완전정복'은 GAN의 이론적인 기반 및 GAN 자체의 발전에 관심이 있으신 분, 그리고 GAN의 다양한 활용에 관심이 있으신 분들께 추천주신다고 말씀 주셨는데요. 더 자세한 내용을 보고 싶으시다면 위의 이미지를 클릭해서 확인 해 주세요.

GAN 생성모델의 A to Z 한번에! 기초부터 실습까지, GAN에 대한 모든 것을 한 번에 다 담은 강의
▶ 모델링 학습부터 성공적인 결과물을 낼 수 있는 노하우를 GAN 최신 모델들을 활용한 실습으로 학습
▶ 기본 모델인 GAN, LSGAN, DCGAN부터 최신 모델인 StyleGAN, BigGAN, PROGAN 등 다양한 GAN 모델 학습


지금 패캐머들이 읽고있는 BEST 아티클이 궁금하다면

이 글과 연관된 주제의 추천 강의