일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 분산분석
- ANOVA
- 컴퓨터 조립
- knn
- 퍼셉트론
- Neural Network
- 30 Day Challenge
- Bayes Rule
- 확률
- p-value
- AI Winter
- Stack
- 인공신경망
- Bayes Theorem
- 딥러닝
- 인공지능
- AI
- p 값
- 베이즈 정리
- 컴퓨터
- 통계
- 인공지능 겨울
- 편향
- 조건부 확률
- LeetCode
- 심층학습
- Today
- Total
군더더기 없는 기계학습 백과사전
언젠가 심층학습(딥러닝) 모델을 뛰어넘는 새 기계학습 모델이 등장할까? 본문
언젠가 심층학습(딥러닝) 모델을 뛰어넘는 새 기계학습 모델이 등장할까?
Jay김 2020. 6. 24. 08:22해당 글은 현재 매사추세츠 앰허스트(애머스트) 대학에서 재직 중이신 Sridhar Mahadevan 교수님의 '새로 개발된 기계학습 모델 중 심층학습을 뛰어넘는 게 있을까요?' (What newly developed machine learning models could surpass deep learning?) 쿼라(Quora) 질문에 대한 답변을 번역한 글입니다. 해당 글에는 필자가 한국인 독자에게 적절하다고 생각하는 의역이 있을 수도 있음을 알려드립니다.
해당 글은 쿼라 콘텐츠 이용약관 3조 c(i)항을 따릅니다. https://www.quora.com/about/tos
원글: qr.ae/TxDEhv
What newly developed machine learning models could surpass deep learning?
Answer by Sridhar Mahadevan, PhD Computer Science, Rutgers University (1990)
www.quora.com
저는 현재로써는 다량의 고차원의 정보를 처리하고 의미 있는 구조를 추출해내는 전반적인 면에서 심층 학습을 능가하는 기계학습 기술은 없다고 확신해도 된다고 생각합니다. 그렇다고 그런 모델이 등장하지 않을 거라고 것은 아닙니다. 그리고 그 모델은 심층학습을 더욱 "심층적"으로 이해하고자 하는 노력 속에서 등장할 가능성이 있다고 생각합니다.
심층학습의 미스터리의 일부는 정확히 무엇이 심층학습을 성공하게 만든 것인가 이해하는 것입니다. 현재 세계 최고의 이론가들이 이 질문에 답하기 위해 노력하고 있죠. 현재 이 분야에서 제일 활동량이 많은 팀을 이끌고 있는 프린스턴 대학의 Sanjeev Arora 교수의 웹사이트가 이 질문에 답하면서 발생하는 여러 문제들을 이해하기 위함에 있어 좋은 시작점이라고 생각합니다. 그는 최근에 데모를 보여주기도 했죠. 20초짜리 틱톡 비디오가 아니니 (딥러닝 이론에) 심신 미약이신 분들은 시청하지 마시길 바랍니다. 무려 2시간짜리 비디오입니다.
그래서 여기서 정확히 미스터리라는 게 뭘까요? 심층학습은 우리의 기존 논리 체계에 딱 맞아 들어가지 않습니다. 굉장히 잘 정의되지 않은(ill-defined) 비볼록 최적화 (non-convex optimization) 문제이며, 현존하는 모든 이론들은 이 문제 영역에서는 최적화가 잘 이루어질 수 없다는 결론을 내놓습니다. 그러나 심층학습은 실제로는 잘 작동할 뿐만 아니라 굉장히 빠른 경사 하강법(gradient descent)이라는 선형 시간(linear time) 내에 최적해에 굉장히 가까운 매개변수 해답을 찾아주는 알고리즘도 존재합니다. 사실상 Sanjeev 같은 이론가에겐 심층 학습이란 물리학의 암흑 물질이나 다름없는 문제인 겁니다. 불가사의한 암흑 물질은 물리학에서 제일 이상한 주제죠. 그런데도 설명이 부여되길 요구하고 세계 최고의 이론가들을 끌어들입니다. 이처럼 딥러닝은 전산 학계와 수학계의 암흑 물질 미스터리와도 같습니다. 존재할리가 없지만 존재하는, 그리고 제대로 작동할 리가 없는데도 제대로 작동하는 물건입니다.
또 다른 아직 맞춰지지 않은 퍼즐은 심층 학습 네트워크가 잡음(노이즈)을 기억할 수 있다는 점입니다. 여러분이 네트워크에 무작위로 레이블(label)을 달아준 랜덤한 노이즈 이미지를 학습시킨다면, 네트워크가 별문제 없이 훈련 자료에 대한 오류를 0으로 최소화하는 걸 볼 수 있을 것입니다. 현존하는 기계학습 이론에서는 함수 추정량(function estimator)이 이 정도 (바프니크 체르보넨키스 스타일 분석의 맥락에서) "수용력(capacity)"을 지닌다면, 모델이 사실상 정보를 외우는 것일 뿐, 본 적이 없는 다른 맥락에서의 정보도 이해할 수 있는 일반화(generalization) 학습을 하는 것이 아니라는 분석을 내놓습니다. 그러나 이는 사실이 아닙니다. Imagenet 같은 심층학습 네트워크는 노이즈가 없고 일관성이 있는 정보를 학습시키면 일반화를 잘만 할 수 있습니다. 그렇다고 이게 실생활 컴퓨터 비전 문제를 완벽히 해결했다는 것은 아니지만, 기대만큼의 성능은 이끌어 낼 수 있습니다. 그러니까 심층 학습을 이해하기 위해선 기존의 수학적 최적화 방법론뿐만 아니라, 기존의 일반화 모형들에 대해서도 다시 생각해봐야만 합니다. 1
심층학습을 넘어선 인공지능/기계학습의 미래를 점쳐보기 위해 시도해 볼 수 있는 한가지 방법은 질문을 바꿔 보는 것입니다. 심층학습의 본질은 이미 존재하는 정보 집합의 학습에 특화되어 있다는 점입니다. 그러나 이것은 세상의 수많은 문제를 해결하기엔 충분하지 않습니다. 예를 들면 기후 변화가 있죠. 이 문제의 해결은 심층학습 알고리즘에게 단순히 기존 몇 년 간의 기후 데이터를 훈련시키는 정도로는 어림도 없습니다. 물론 그런 시도를 하는 학자들이 있긴 합니다.
https://arxiv.org/abs/1810.01993
Exascale Deep Learning for Climate Analytics
We extract pixel-level masks of extreme weather patterns using variants of Tiramisu and DeepLabv3+ neural networks. We describe improvements to the software frameworks, input pipeline, and the network training algorithms necessary to efficiently scale deep
arxiv.org
이 논문에서는 5000개의 P100 수준 GPU부터 24,000개까지 늘린 GPU를 이용해 몇십 테라바이트 수준의 기후 데이터를 심층 학습 모델을 훈련시켜 성능을 분석합니다. 이 논문은 데이터량 대비 GPU 대비 늘어나는 심층학습 모델의 막강한 성능을 보여주고자 노력하긴 하나, 저는 이것을 기계학습 발전의 옳은 방향이라는 확신이 들게 만들어주는 설득으로 받아들일 수 없습니다.
기후 과학은 세상이 지금 어떤지 이해하는 것보다는, 세상이 어떻게 변화하고 있는지에 대한 이해가 필요합니다. 이는 단순히 기존의 세계가 어땠는지 그리고 지금의 세계가 어떤지 설명하는 통계적 모델에 그치지 않고 50년 혹은 100년 앞을 내다볼 수 있는 더욱 높은 수준의 모델을 요구합니다. 이게 바로 지금 기후 분석 모델이 시도하는 것입니다. 이를 위해 정말 필요한 건 인과관계 분석이고, 이건 심층학습의 능력 밖의 영역에 있습니다. 기계학습과 심층학습에 비판적인 학자인 Judea Pearl은 최근 논문에서 기계학습 분야가 인과관계를 무시함으로써 발생하는 문제점을 감수하면서까지 인과관계 분석의 중요성을 무시하고 있다고 주장하기도 했습니다.
https://arxiv.org/abs/1801.04016
Theoretical Impediments to Machine Learning With Seven Sparks from the Causal Revolution
Current machine learning systems operate, almost exclusively, in a statistical, or model-free mode, which entails severe theoretical limits on their power and performance. Such systems cannot reason about interventions and retrospection and, therefore, can
arxiv.org
올해의 경제학 분야 노벨상은 개발경제학 분야에서 무작위 배정 임상시험을 통한 인과관계 분석 모델 개발의 선구자인 세명의 경제학자에게 돌아갔습니다. 그들의 수많은 선구적인 연구는 인도와 아프리카 같은 곳에서 진행되었는데요. 이들이 연구한 문제들은 현재 심층학습이 할 수 있는 수준을 넘어섰습니다.
이 경제학자들이 일생동안 연구하고 해결하고자 했던 문제들을 묘사하는 표창장은 읽어볼만한 가치가 있다고 생각합니다. 진심으로 영감을 주는 글이라고 생각합니다. 서두는 다음과 같습니다.
"지난 몇 십년 동안의 발전에도 불구하고 빈곤 문제는 세계촌 곳곳에 다양한 형태로 널리 퍼지고 깊이 뿌리 박힌 문제입니다. 예시로, 오늘날에는 7억 명의 이상이 초저임금으로 생계를 이어나가고 있습니다. 매년, 5백만 명의 5살 미만 아동들이 이미 발명된 의료 기술로 손쉽게 예방되거나 치료될 수는 질병으로 인해 사망합니다. 오늘날 대부분의 저소득 및 중소득 국가의 아이들이 초등학교에 다니지만, 많은 수가 읽기, 쓰기, 그리고 수학도 제대로 배우지 못하고 학교를 떠납니다. 여전히 세계촌의 빈곤을 효과적 감소시키는 방법의 탐색은 인류에게 주어진 가장 중요한 과제 중 하나입니다. 또한 이는 경제학이 탄생한 순간부터 해당 분야에 던져진 가장 커다란 질문 중 하나이기도 합니다."
출처:https://www.nobelprize.org/uploads/2019/10/advanced-economicsciencesprize2019.pdf
그래서 제일 빈곤한 자들을 돕기 위한 전략을 찾는 최고의 방법은 뭘까요? 올해의 경제 과학 분야의 노벨상은 세계 빈곤 현상과 해결책을 연구하는 개발 경제학 분야를 뒤바꾼 실험적인 접근에 수여되었습니다. 겨우 20년 만에 올해의 노벨상 수상자들에 의해 개발 경제학은 빠르게 발전하는 실험적인 접근 중심의 분야로 바뀌었습니다.
여기서 해결되어야 하는 문제는 고전적인 데이터 과학과 심층학습으로는 해결 불가능한 인과 관계에 근거한 해결책을 찾는 것입니다. 단순히 거의 10억 명이 빈곤에 빠져있다는 기존 세계의 상태를 담은 모델을 만드는 문제가 아닙니다. 어떻게 현실을 더 나은 상태로 바꿀 것인지 아이디어를 제시하는 문제입니다!
노벨상을 수상한 MIT 아비지트 배너지와 에스테르 뒤플로는 본인들의 연구에 대해 훌륭한 기록을 담은 책을 출판했습니다. 충분히 읽어볼 만한 가치가 있다고 생각합니다.
이 업적은 심층 학습으로부터 멀어지는 인공지능과 기계학습 분야의 미래를 위한 로드맵을 생각해보게 만듭니다. 인류의 존재 자체를 위협하는 기후 변화든 소위 선진국이라 불리는 국가들이 아직도 그 많은 자본을 가지고도 흠집조차 못 낸 빈곤과 문맹 문제든, 세계촌의 제일 중요한 과제들을 해결하기 위해선 Judea 교수가 말했듯이 곡선 끼워 맞추기(curve fitting) 정도로는 충분하지 않습니다. 이를 위해선 인과 관계 분석을 통한 원인 발견 및 해결이 필요합니다.
심층 학습은 거대한 데이터를 통한 거대한 초과적합 모델 훈련이라는 분야에서 강세를 드러내고 있고, 그 위치를 확고하게 유지할 가능성이 높습니다. 남은 과제는 대부분 왜 그런지 이해하는 것입니다. 이는 그 원리가 투명하고 더 나은 방법론으로 이어질 수 도 있습니다. 그러나 제가 성공할 것이라고 믿는 Sanjeev Arora 같은 학자를 통해 그 노력의 결실이 있을지라도 그 과정에 인류에게 제일 절실한 문제 해결이 포함되지는 않을 것 같습니다. 이를 위해선 따로 완전히 다시 시작해야 한다고 생각합니다.
그것은 곧 복잡한 비선형 모델 제작만으로는 불충분함을 시인하는 것과 같습니다. 이 경제학자들이 이번 해 노벨상을 수상한 것은 주어진 데이터를 설명할 모델을 짓는 것에 의한 것이 아닙니다. 아니, 그들은 개발도상국들이 제일 심각한 사회 문제들을 해결할 수 있는 기술들을 개발하는데 선구적인 역할을 했기 때문입니다.
에스테르 뒤플로 교수의 연구실은 현재 80개 이상의 국가들에서 거의 1000개의 무작위 배정 임상실험을 진행하고 있습니다. 그녀는 최연소 노벨 경제학상 수상자이며 많은 사람들에게 영감을 주었습니다.
https://www.povertyactionlab.org/
The Abdul Latif Jameel Poverty Action Lab
For those in Indonesia with access to mobile phones and digital literacy, e-commerce and digital financial services may help people to maintain their livelihoods. Not only do digital financial services offer a fast and contactless means of payment and tra
www.povertyactionlab.org
저는 기계학습과 인공지능 분야에게 그녀의 선구자적 행적을 따르고 세상을 더 나은 곳으로 바꾸는 것보다 더 나은 미래는 없다고 생각합니다.
[Copyright ⓒ 블로그채널 무단전재 및 재배포 금지]
- VC 이론에서 통계 학습 알고리즘이 배울 수 있는 함수족의 복잡도, 범위 등을 분석하는 방법론이다. [본문으로]
'Artificial Intelligence > 과거, 현재, 그리고 미래' 카테고리의 다른 글
퍼셉트론의 등장과 한계 - 인공지능의 겨울 (0) | 2020.07.04 |
---|---|
인공지능이 자각을 하게 된다면? (0) | 2020.06.23 |
기계학습 입문자를 위한 수학적 배경의 필요성 (0) | 2020.06.22 |
기계학습의 과학성에 대한 고찰 (0) | 2020.06.16 |