군더더기 없는 기계학습 백과사전

퍼셉트론의 등장과 한계 - 인공지능의 겨울 본문

Artificial Intelligence/과거, 현재, 그리고 미래

퍼셉트론의 등장과 한계 - 인공지능의 겨울

Jay김 2020. 7. 4. 08:21

해당 글은 현재 매사추세츠 앰허스트(애머스트) 대학에서 재직 중이신 Sridhar Mahadevan 교수님의 '다층 퍼셉트론은 단층 퍼셉트론의 한계를 어떻게 보완하나요?' (How can a multi-layer perceptron address limitations of a single-layer perceptron?) 쿼라(Quora) 질문에 대한 답변을 번역한 글입니다. 해당 글에는 필자가 한국인 독자에게 적절하다고 생각하는 의역이 있을 수도 있음을 알려드립니다.

해당 글은 쿼라 콘텐츠 이용약관 3조 c(i)항을 따릅니다. https://www.quora.com/about/tos

원글: qr.ae/pNK9fz

 

How can a multi-layer perceptron address limitations of a single-layer perceptron?

Sridhar Mahadevan's answer: The story of how ML was created lies in the answer to this apparently simple and direct question. In much of research, often the simplest questions lead to the most profound answers. So, the story of ML begins in the late 1950s

www.quora.com

기계학습 탄생 일화는 이 단순하고도 직접적인 질문에 담겨있습니다. 대부분의 연구에서 가장 단순한 질문들이 가장 놀라운 답에 도달하기 마련이지요. 기계학습의 역사는 프랭크 로젠블랫(Frank Rosenblatt)이라는 신경과학자가 퍼셉트론이라고 불리는 뇌의 전산 모델을 개발한 1950년대 후반으로부터 시작됩니다.

퍼셉트론에 대한 설명은 위키피디아 원문을 그대로 인용하겠습니다. 데자뷔처럼 60년 전에 일어났던 일이 현재 2019년에 벌어지는 일들과 이상하고 소름 끼칠 정도로 비슷하거든요.

"퍼셉트론은 코넬 대학교 항공학 연구실에서 미 해군 연구청(USONR)의 지원 하에서 프랭크 로젠블랫에 의해 개발되었다.

최초의 구현 사례가 IBM 704을 위한 소프트웨어에서였고, 그다음으로 맞춤 제작 하드웨어 "마크 1 퍼셉트론"이긴이긴 해도 퍼셉트론은 사실 프로그램이기보다는 기계로 의도되어 개발되었다. 해당 기계는 이미지 인식용으로 개발되었고, 400개의 포토셀 행렬, 거기에 무작위로 연결된 '뉴런' 전선들, 가변성 저항으로 구현된 가중치들, 그리고 이를 학습 기간 동안 계속 업데이트시켜주는 전기모터로 이루어져 있었다."

자 이제 정말 놀라운 부분으로 들어가 보겠습니다.

"1958년에 미 해군이 연 기자회견에서 로젠블랫은 겨우 첫걸음마를 뗀 인공 지능 학회 내에서 커다란 논란을 불러일으킬 퍼셉트론에 대한 발언을 하였다. 로젠블랫의 발언에 따르면, 퍼셉트론은 걷고, 말하고, 보고, 쓰고, 자가 생식이 가능하고, 본인의 존재까지 자각할 것이라고 (해군이 예상하기에) 전자컴퓨터의 배아줄기세포가 될 것이라고 뉴욕 타임스(The New York Times)지는 보도했다."

이 60년 전의 비이성적인 자랑은 지금의 인공지능에 환장한 언론의 열광과 비슷하지 않나요? 그래서 다음 이야기에서 우리의 겸손한 퍼셉트론에게 무슨 일이 일어났을까요? 뭐, 인공 지능 분야의 설립자 중 한 분이신 MIT의 마빈 민스키 교수님과 그의 동료 시모어 페퍼트가 전산 학습 이론의 분야의 기념비적인 서적 중 하나인 '퍼셉트론들'(Perceptrons: An Introduction to Computational Geometry)의 출판을 통해 퍼셉트론 모델을 아주 환상적으로 묵사발을 내버렸습니다. 환상살

서적 링크: https://mitpress.mit.edu/books/perceptrons

 

Perceptrons

It is the author's view that although the time is not yet ripe for developing a really general theory of automata and computation, it is now possible and desirable to move more explicitly in this direction. This can be done by studying in an extremely thor

mitpress.mit.edu

해당 책에서 민스키와 페퍼트는 퍼셉트론이 데이터에서 배울 수 있는 것들은 굉장히 제한되어 있으며, 그로 인한 성능이 "걷고, 말하고, 보고, 쓰고, 자가 생식까지" 한다는 언론 매체의 보도와는 한참 멀다는 것을 보여주었습니다. 열정에 눈이 먼 나머지 연구자들이 가장 기본적인 질문인 "이 모델이 배울 수 있는 것에 한계가 있을까?"를 간과했었다는 겁니다. 특히나 퍼셉트론은 간단한 XOR 함수조차 배우지 못했습니다. 다시 말해 선형 구분(linear separation)이 불가능함을 의미한다는 것이었습니다.

해당 그림에서 볼 수 있듯이, AND와 OR 논리 연산은 양성(positive)과 음성(negative) 예들을 직선으로 분리해놓을 수 있기에 퍼셉트론이 학습할 수 있습니다. 그러나 XOR은 그렇지 않습니다. 결국 이 파장으로 버블은 붕괴해버렸고, 인공신경망 연구는 완전히 중지되었습니다. 나중에 민스키는 그저 자신은 원 모델의 문제점을 지적하고자 한 것뿐이었지 (한 연구 분야를 완전히 사장시키려는) 그럴 의도는 없었다고 했다고 합니다.

다음 발전은 다층 퍼셉트론(multi layer perceptron)이 등장하고, 지오프 힌턴(Geoff Hinton)과 동료들이 그 유명한 역전파(backpropagation) 알고리즘을 개발한 1980년 대 중반인 30년 이후에서나 등장합니다. 제가 카네기 멜론 대학에서 1978년에 힌턴의 인공신경망 강의를 들었는데요. 당시의 기대감이 아직도 연상됩니다. 현재 여러분이 인공지능에 대해 느끼는 기분과 비슷했을 겁니다.

역전파 알고리즘의 핵심은 (다층 퍼셉트론의) 출력 값의 경사(gradient)를 층들에 내재된 매개변수(parameters)에 대해 계산해내는 것입니다. 이 알고리즘은 그저 미적분학만 알면 이해할 수 있고 연쇄 법칙(chain rule)을 사용합니다. 결과는 다층 퍼셉트론의 등장과 함께 퍼셉트론은 그 한계를 벗어나게 된 것이었습니다. 한 다트머스 대학의 수학자는 함수해석학의 가장 중요한 이론 중 하나인 한-바나흐 정리를 이용해 다층 퍼셉트론이 역시 아무 연속 함수나 표현할 수 있다는 사실을 증명해내었습니다. 원본은 깊은 수학적 이해가 요구되지만 더 간단한 설명도 존재합니다.

http://neuralnetworksanddeeplearning.com/chap4.html

 

Neural networks and deep learning

One of the most striking facts about neural networks is that they can compute any function at all. That is, suppose someone hands you some complicated, wiggly function, $f(x)$: No matter what the function, there is guaranteed to be a neural network so that

neuralnetworksanddeeplearning.com

30년이 지나고 나서야 이 이야기는 행복한 결말을 보게 되었을까요? 전혀 아니었습니다. 똑같은 문제와 또다시 조우하게 된 것입니다. 영화 그라운드 호그 데이에서 마냥 같은 시나리오가 기계학습/인공지능 분야에서 반복되는 듯했습니다. 이번 문제는 이 이론들이 인공신경망이 이 역전파를 통해 아무 데이터로부터 아무 연속함수를 배울 수 있는지에 대해선 아무론 정보를 주지 않는다는 것이었습니다. 이 이론들이 증명하는 것은 그저 특정 가중치를 이용해 아무 연속함수나 표현할 수 있다는 것이었죠.

놀랍게도 2020년이 다되어 가는 현재 시점에서 상황은 크게 다르지 않습니다. 아직도 다층 인공 신경망이 아무 데이터로부터 아무 연속 함수를 학습할 수 있다는 증명은 존재하지 않습니다. 다층 인공 신경망이 수많은 생사가 걸린 상황에 자주 쓰이는 지금, 상황은 점점 악화되어 가고만 있습니다. 예를 들어, 제 테슬라 모델 S P100D는 가장 간단한 자가운전 기능을 다층 인공 신경망을 통해 구현합니다. 저는 제 차가 저를 직장에 안전하게 데려다 주리라고 믿을 수 있는지 알 수 있다면 정말로 좋겠습니다!

그러나 한 치 앞이 안 보이는 현재, 한줄기 희망의 빛이 보이기 시작하긴 했습니다. 일단 몇 개의 최신 논문들에서 무한 와이드 네트워크가 다루기 쉬운 성질을 지닌 꽤 간단한 가우스 과정 모델로 정리될 수 있다는 사실이 발견되었습니다. 너무 자세한 기술적인 지식을 생략하고 설명하자면 스펙트럼 속성이 (그러니까 아이겐 고윳값들이) 무작위로 임의 설정된 초기 값과 최종 조정된 값 사이에 차이가 거의 없어 변화가 거의 없는 양의 정부호 행렬(positive semi definite matrix)을 만들 수 있다는 것입니다. 이 행렬을 바로 뉴럴 탄젠트 커널이라고 부릅니다.

논문: https://arxiv.org/abs/1806.07572

 

Neural Tangent Kernel: Convergence and Generalization in Neural Networks

At initialization, artificial neural networks (ANNs) are equivalent to Gaussian processes in the infinite-width limit, thus connecting them to kernel methods. We prove that the evolution of an ANN during training can also be described by a kernel: during g

arxiv.org

이와 다르게 과하게 매개변수 설정이 된 인공 신경망 속에 사실상 로또 당첨자마냥 전체 신공망만큼 성능이 좋은 작은 인공신경망들이 무작위로 존재한다는 분야의 미래 전망에 혼란만 가중시키는 결과들도 등장했습니다. 다르게 말하면, 가중치 90%를 폐기 처분하고 똑같은 성능을 가진 인공 신경망을 유지시킬 수 있다는 것입니다. 무슨 일이 일어나는 것일까요? 우리 학자들 사이의 비밀을 털어놓겠습니다. 아무도 모릅니다! 아직도 미스터리예요! 무섭지만 사실이기도 합니다. 유명해진 해당 2018 논문의 초록을 인용하겠습니다.

"결과에 따라서. 우리는 다음과 같은 로또 티겟을 가설을 제시한다:

전결합된(dense), 무작위로 초기 가중치가 설정된(randomly initialized), 순전파(feed forward) 네트워크는 소위 "당첨권"이라고 불리는 따로 분리시켜 비슷한 수의 반복 훈련에 노출시키면 전체 네트워크의 성능에 필적하는 정확도를 보여주는 하위 네트워크(subnetwork)를 포함한다. 이 당첨권들은 제일 적절한 가중치가 배정되어 무작위 초기 가중치 로또에 의해 당첨되었다. 우리는 이 로또 티겟 가설을 뒷받침하는 몇 가지 실험들, 그리고 특정한 의도가 없이 진행된 무작위 초기 가중치 설정의 중요성을 보여주고자 한다"

논문: https://arxiv.org/abs/1803.03635

 

The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks

Neural network pruning techniques can reduce the parameter counts of trained networks by over 90%, decreasing storage requirements and improving computational performance of inference without compromising accuracy. However, contemporary experience is that

arxiv.org

그러니까 퍼셉트론이 발표된 지 60년이나 지나서도 우리는 인공 신경망의 실체에 대한 확신이 없습니다. 그리고 결과에 따라 몇 조 달러짜리 산업의 미래가 정해집니다. 어느 홀리우드 스릴러 영화보다도 나은 장르 같습니다. 지속적인 관심을 부탁드립니다!

[Copyright ⓒ 블로그채널 무단전재 및 재배포 금지]

Comments