데이터 사이언스에 관심있다면? '이것'만큼은 꼭 해보세요.

데이터 사이언스에 관심있다면? '이것 해보세요' [2]

#데이터 사이언스 #SOTA 모델 #논문리뷰

해당 콘텐츠는 총 3개의 글로 이루어져 있습니다. (클릭 시 이동)
[1] 데이터 사이언스에 관심있다면 '이것' 해보세요. ⓛ 컴피티션
[2] 데이터 사이언스에 관심있다면 '이것' 해보세요. ② 논문
[2] 데이터 사이언스에 관심있다면 '이것' 해보세요. ③ 코딩

최신 논문을 읽어야 하는 이유

지난 데이터 사이언스에 관심 있는 사람에게 추천하는 3가지 활동 1편에서는 데이터 사이언스 관련 경진대회 플랫폼을 소개해드렸습니다. 데이터 사이언스 관련 경진대회는 각종 기업에서 필요한 데이터 니즈에 의해 운영되는 만큼 실제 현업에서는 어떤 데이터를 보유하고 있으며 이를 어떻게 활용할지에 대한 고민을 함께 해볼 수 있습니다. 하지만 빅데이터, 인공지능 등 데이터 사이언스 분야의 기술적 발전을 알아보고 이 트렌드를 따라가고자 한다면 단순 경진대회 참여만으로는 부족함을 느낄 수 있습니다.

데이터 사이언스 경진 대회에 참여하는 것이 배움에 도움이 되는 것은 사실이지만 그 근본적인 목적은 결국 데이터 처리 및 활용에 대한 경험을 쌓는 것입니다. 하지만 아무런 지식이나 기반 없이 데이터를 바로 활용하고자 하는 것에는 부담이 따르는 것이 사실입니다. 그래서 이번 데이터 사이언스에 관심 있는 사람에게 추천하는 3가지 활동 2편에서는 데이터 사이언스를 공부하는 가장 방법 중 두 번째 활동을 이야기하려 하며 이는 빅데이터와 인공지능에 대한 근본적인 이해도를 높이는데 도움이 주는 내용입니다. 이는 바로 최신 빅데이터, 인공지능 논문을 읽는 것입니다.

데이터 사이언스의 전반적인 흐름 파악

데이터 사이언스 관련 최신 논문 읽기를 추천하는 것은 크게 두 가지 이유가 있습니다.

그 첫 번째 이유는 바로 데이터 사이언스 분야의 전반적인 흐름을 파악할 수 있다는 점입니다. 빅데이터, 인공지능 분야의 큰 특징 중 하나는 최신 모델이나 알고리즘 등이 하루가 다르게 쏟아져 나온다는 것입니다. 그리고 이러한 최신 모델 및 알고리즘들은 모두 논문의 형식으로 학술적인 실험을 거쳐 발표되게 됩니다. 이름만 들으면 누구나 아는 유명한 학교 및 교수들의 연구 결과는 물론이며 구글, 네이버와 같이 학교(연구 활동)와는 다소 거리가 있어 보이는 거대 기업들도 최신 기술을 발표할 때면 늘 연구 논문을 통해 해당 기술의 우수성을 밝히며 시작을 합니다.

그리고 이 연구 논문들은 당연히 삭제되지 않고 모든 일반인들이 읽을 수 있도록 저장되어 있습니다. 바꿔 말하면 지금까지 빅데이터, 인공지능 발전에 핵심적인 역할을 한 각종 기술들의 첫 시작점이라 볼 수 있는 연구 논문들을 우리는 쉽게 읽어볼 수 있다는 것입니다. 때문에 이 논문들을 차분히 정리해나가다 보면 데이터 사이언스 분야가 어떤 기술을 기반으로 발전해왔으며, 그 기술들 간에는 어떤 연관성이 있는지, 또한 데이터 사이언스 전문가들이 가지고 있는 주된 관심 분야는 어떤 것이었는지를 쉽게 정리할 수 있을 것입니다. 따라서 데이터 사이언스 분야에 출간되었던 핵심 논문들을 차례로 읽어나간다는 것은 이 분야의 일대기를 읽어보는 것과 같은 효과를 누릴 수 있습니다.

학계의 연구 속도 vs 기업의 활용 속도

데이터 사이언스 최신 논문을 읽어야 하는 두 번째 이유는 학계의 연구 속도와 해당 연구 결과에 대한 기업의 활용 속도에 차이가 있다는 점입니다.

꼭 빅데이터나 인공지능 분야가 아니더라도 최신 기술의 탄생, 발명은 학계에서 시작되는 경우가 많습니다. 물론 기업에 속해있는 연구원들이 새로운 기술과 제품을 탄생시키는 경우도 심심치 않게 찾아볼 수 있기는 합니다. 하지만 많은 경우 새로운 지식과 기술의 탐색은 주로 학계 내에 있는 학자들이 그 담당을 하고 있습니다. 이는 데이터 사이언스 분야도 마찬가지입니다. 많은 데이터 사이언스 전문가들이 특정 학교에 소속된 교수, 박사라는 타이틀을 내걸고 연구 논문이라는 이름으로 이 새로운 모델들을 발표하고 있습니다. 그리고 당연하게도 무수히 많은 이 새로운 모델들은 그 즉시 산업 현장에서 활용되지는 못합니다.

어찌 생각해보면 이는 당연한 사실이기도 합니다. 어떤 기술이든 탄생하자마자 그 즉시 활용된다는 것은 불가능합니다. 그렇기에 특히 데이터 사이언스 분야에서는 늘 최신 트렌드가 반영된 기술은 산업 현장이 아닌 학계에서 관찰 가능하곤 합니다. 즉, 데이터 사이언스 분야의 최신 논문을 읽는다는 것은 그 자체로 곧 필드 내의 트렌드를 캐치해나가고 있다는 것을 의미합니다. 새로운 방법론을 적용한 신규 모델에 대해 이해도를 높이는 것은 물론, 최근 연구 주제들이 무엇인지를 살펴보는 것만으로도 데이터 사이언스 분야가 어느 방향으로 나아가고 있는지 쉽게 파악 가능합니다. 그 어떤 곳보다도 기술의 발전 속도가 빠르고 최신 트렌드가 빠르게 바뀌는 이 분야에서 최신 트렌드를 따라가고 있다는 것은 어마어마한 의미를 가집니다.

최신 논문을 읽을 때 유의할 점

다만, 데이터 사이언스 분야 공부를 하기 위해서 최신 논문을 읽는 것이 좋은 것을 알지라도 실제로 논문을 읽어나가는 것은 쉬운 일이 아닙니다. 이는 분야 내에서 권위 있는 학술지라고 평가를 받는 곳 중에서 출간된 논문을 한 번 읽어보기만 하면 그 이유를 쉽게 알 수 있습니다. 다른 특별한 이유가 있는 것 보단 논문에서 말하고 있는 내용이 너무 어렵기 때문입니다. 특히 데이터 사이언스 분야는 각각의 연구 논문들이 프로그래밍 분야, 머신러닝, 딥러닝, 데이터 처리 등 다양한 분야에 초점을 맞추고 있기에 이 모든 내용을 상세하게 이해하기란 쉬운 것이 아닙니다. 하지만 다행히, 처음으로 논문을 읽어보는 사람도 쉽게 내용에 접근할 수 있는 여러 노하우들이 존재하기는 합니다.

세부 분야를 정해서 읽어보기

데이터 사이언스 분야의 최신 논문을 읽을 때 알면 좋은 첫 번째 노하우는 바로 세부 분야를 정해서 논문을 선별하는 것입니다. 데이터 사이언스 분야는 컴퓨터 비전, 자연어 처리, 머신러닝 데이터 처리 등 데이터의 성질에 따라서 구분이 가능하기도 하며 지도 학습, 비지도 학습, 생성 모델 등 모델이나 알고리즘의 종류에 따라 세부 분야를 구분 지을 수도 있습니다. 그리고 이 모든 분야의 최신 논문을 다 읽어보는 것은 사실상 불가능한 일입니다. 각 분야별로 가장 평판 높은 학술지에서 출간된 논문만을 읽는다고 하더라도 그 양이 너무나 많기 때문입니다.

이 때문에 데이터 사이언스를 공부하는 학생이라면 본인이 데이터 사이언스라는 넓은 분야 내에서도 어떤 세부 분야를 공부해볼지 먼저 결정하고, 그 이후 해당 분야의 최신 논문만을 추려 학습을 진행하는 것이 필요합니다. 사실 본인의 관심 분야 논문만을 세부적으로 살펴보며 학습을 진행하는 것은 석박사 학위가 있는 사람들처럼 논문에 어느 정도 친숙한 사람들에게는 당연한 일입니다. 다만, 연구 논문을 읽는 것 자체가 아예 처음인 사람들은 분야에 대한 구분을 진행하지 않는 경우를 쉽게 발견할 수 있습니다. 논문을 읽으며 공부를 할 때는 이 세상의 지식을 모두 배우겠다는 거창한 마음가짐보다는 내 분야에 대해 느리지만 조금씩 알아가고자 하는 착실한 마음가짐이 필요합니다.

SOTA 모델의 선행 모델이나 연구 논문을 순차적으로 읽어가기

본인이 목표하고자 하는 세부 분야가 정해진 사람이라면 해당 분야 내 SOTA(State-of-the-Art) 모델은 큰 의미를 가집니다. SOTA란 현재까지 발표되어 있는 여러 가지 모델 중 가장 우수한 성능을 발휘하고 있는 모델을 의미합니다. 즉, 모델끼리의 순위를 매길 때 1등이라고 볼 수 있는 모델을 뜻합니다. 1등 모델이기 때문에 SOTA에 대해 학습하는 것은 다른 모델에 대해 공부를 하는 것보다 그 효용성이 더 높습니다. 실제로 산업 현장에서 적용하고자 하거나 여러 경진대회에서 가장 많이 사용되는 모델들이 바로 각 분야의 SOTA 모델들입니다. 앞서 이야기한 논문 읽기의 주된 효과 중 하나인 데이터 사이언스 분야의 흐름을 파악하는 것 역시 각 시대별로 SOTA가 무엇이었는지를 정리해나감으로써 파악되는 경우가 많습니다.

그리고 이러한 SOTA 모델은 보통 뜬금없이 발표되지 않습니다. 데이터 사이언스 분야의 많은 모델들은 초기 모델이 먼저 발표되고 그 모델의 개선, 수정 버전이 주기적으로 발표됩니다. 이렇게 반복적으로 수정되어 나가는 이 모델들 중 SOTA가 탄생하는 경우가 많습니다. 이 때문에 논문을 통해 학습을 진행함에 있어 현재까지 나와있는 SOTA 모델이 소개되어 있는 논문을 살펴보고 그 논문의 참고 문헌들을 다시 반복적으로 살펴보는 것을 추천합니다. 앞서 이야기한 SOTA의 근간이 되는 모델들은 보통 논문 내 참고 문헌의 형식으로 잘 요약해서 정리되어 있는 경우가 많기 때문입니다.

논문 읽기는 효과가 확실한 맛없는 약입니다.

요약하자면, 학습을 위해 아주 중요한 자료이며 논문 읽기에 도움이 되는 여러 노하우들을 잘 적용하면 분명 데이터 사이언스 전문가로 성장하는데 큰 도움이 될 것입니다. 다만, 아무리 몇 가지의 노하우가 있더라도 최신 논문을 꾸준히 읽어나간다는 것은 분명 어려운 일입니다. 최고의 학자들이 작성한 연구 논문의 난이도가 쉬울 리가 없으며 그 어려운 논문을 심지어 꾸준하게 읽어나가는 것은 당연히 어렵습니다. 다만, 어려운 만큼 그 효과는 가장 확실하다고 볼 수 있습니다. 마치 몸에 좋은 약이 쓴 것과 유사하다고 생각하면 됩니다. 지금까지의 데이터 사이언스에 관심 있는 사람에게 추천하는 3가지 활동에서는 학습을 위해 좋은 활동들을 살펴보았습니다. 하지만 공부와는 별개로 데이터 사이언스 분야에서는 분명 습득이라는 중요한 영역이 있습니다. 다음 데이터 사이언스에 관심 있는 사람에게 추천하는 3가지 활동 3편에서는 학습을 통해 얻게 된 다양한 지식들을 습득 혹은 체득하는데 도움이 되는 활동에 대해 이야기해보도록 하겠습니다.

출처
삼더하기일님의 브런치 글을 동의 하에 업데이트 하였습니다.
데이터 사이언스에 관심 있는 사람에게 추천하는 3가지 활동

root layout

[미디어] 데이터 사이언스에 관심있다면? | 논문리뷰