최근 인공지능이 가시적인 성과를 나타내고 세계적인 IT기업들의 각종 서비스에 이용됨에 따라 ‘머신러닝(Machine Learning, 기계학습)’ 이란 말을 심심찮게 각종 미디어에서 접하게 되었습니다. 우리가 인공지능을 지금까지의 컴퓨터보다 훨씬 더 뛰어난 능력을 가진 컴퓨터 정도로 이해한다면, ‘머신러닝’은 컴퓨터에 뛰어난 능력을 부여하는 과정이라고 생각할 수 있습니다. 즉, 컴퓨터에게 특정한 방식으로 ‘데이터’를 처리하도록 명령하는 과정인 것입니다.
1950년대에 한 컴퓨터과학자가 ‘미리 짜놓은 프로그램에 의하지 않더라도 컴퓨터가 학습할 수 있는 능력’을 이렇게 부른 뒤부터 꾸준히 발전되어온 ‘머신러닝’은, 오늘날 인공지능을 구성하는 중요한 알고리즘기술을 일컫게 되었습니다. 알고리즘이란 앞에서 이야기한 ‘특정한 방식’을 말합니다. 컴퓨터에 입력되는 다양한 데이터를 처리하는 과정을 알고리즘이라고 부르는 것입니다. 따라서 우리가 머신러닝 혹은 기계학습이란 개념을 사용한다면, 이는 컴퓨터가 자료를 어떻게 처리할 것인가를 지칭하는 말이 되는 것입니다.
예를 들어 고양이 사진을 보고 컴퓨터가 이를 고양이라고 판단하게 하려면 어떠한 방법을 이용해야 할까요? 사람에게는 너무나 쉬운 일이지만, 이를 컴퓨터가 수행하게 만드는 일은 결코 쉽지 않습니다. 고양이 사진에서 고양이의 중요한 특징만 뽑아내어 알고리즘으로 만들 수는 있겠지만, 고양이 사진은 너무나 다양하기에, 어떠한 사진을 보여줘도 고양이라고 알아내도록 하기 위해 하나의 알고리즘만으로 가능하게 만드는 것은 거의 불가능한 일이었습니다. 그러나 충분히 많은 고양이의 사진을 인공지능에게 보여준 다음, 이를 바탕으로 앞으로 새롭게 주어질 다양한 고양이의 사진을 판별해 내도록 하는 것이 머신러닝에 의해 가능해졌습니다. 페이스북이 사용자의 사진에서 다른 사용자를 구별하는 것도 머신러닝에 의해 ‘학습’된 인공지능이 작동하기 때문입니다(수많은 데이터를 미리 인공지능이 처리하도록 만드는 과정을 ‘학습’이라고 부릅니다).
그런데 이러한 머신러닝은 하나의 방법만 존재하는 것은 아닙니다. 한국 위키백과만 참고하더라도 그 범주와 종류가 약 20여종이 넘으며, 영문 위키피디어의 경우 대략 130여 종의 알고리즘을 소개하고 있습니다. 이러한 알고리즘은 인공지능을 어떻게 학습시키느냐에 따라 크게 범주를 나누며, 세부 알고리즘의 경우 목적에 따라 다양한 알고리즘을 혼합해서 사용하기도 합니다. 오늘날 인공지능 연구자들은 기존의 방법들을 개선하거나 새로운 방법을 고안해내는 과정을 통해 인공지능의 성능을 높이기 위해 많은 노력들을 하고 있습니다. 이러한 노력들에 의해 ‘알파고’나 ‘왓슨’ 그리고 ‘알렉사(아마존의 인공지능)’ 등이 탄생한 것입니다. 그리고 그 인공지능들의 능력은 특정한 영역에서 인간을 훌쩍 뛰어넘는 것이었습니다.
그러나 아직까지 이들 인공지능은 특정한 영역에서 인간에 의해 데이터들을 학습할 때만 이런 능력을 갖게 될 뿐, 하나의 인공지능으로 인간처럼 모든 영역에 골고루 대처하거나 스스로 무엇인가를 탐구할 수는 없습니다. 즉 바둑을 두는 알파고를 이용해 사진을 선별해 낼 수 없고, 알파고가 스스로 바둑 이외에 다른 것을 배울 수도 없다는 것입니다. 이는 앞으로 인공지능에 관한 연구가 지향하는 목표가 되기도 하며, 현재 인공지능이 넘어야 하는 장벽이 되기도 합니다.
지금까지 인공지능을 학습시킨 머신러닝 중에서 특히 성과를 올리고 있는 방법은 ‘강화학습(Reinforcement Learning)’ 이라고 불리는 방법입니다. 이는 인공지능으로 하여금 여러가지 대안 중에서 최선의 결과를 낳는 방법을 선택하도록 만듭니다. 따라서 강화학습을 이용할 경우에는 특정한 대안을 이용했을 때 바로 결과가 나타나서 인공지능에 피드백(feedback)을 해줄 수 있어야 수월하게 학습을 진행할 수 있습니다. 하지만, 모든 영역에서 즉각적인 결과가 나오는 것은 아닙니다. 예를 들어 ‘비디오게임’의 경우에는, 플레이어가 아무 쓸모없어 보이지만 다른 행위를 위해 공간을 탐색할 필요도 있습니다. 그러나 자신의 주변 지역은 탐색하더라도 보상이 주어지지는 않습니다. 다만 다른 행위를 할 때 도움이 될 뿐입니다. 따라서 인공지능에게 게임을 수행하도록 명령했을 경우 이들은 종종 방향을 잘 잡지 못하는 경우도 있습니다. 이는 이들이 즉각적인 보상이 나오지 않는 행위는 하지 않으려는 ‘강화학습’에 의해 게임을 수행하기 때문이었습니다.
하지만, 사람이 갖는 호기심이 없는 인공지능에게 이러한 것을 일일이 지정해주고 게임을 수행하도록 하는 것은 쉽지 않은 일이었습니다. 이러한 점으로 인해, 컴퓨터에게 일종의 ‘호기심’과 같은 것을 알고리즘에 포함시키자는 아이디어가 이미 나오기도 했습니다. 그러나 이들은 주된 머신러닝의 방법이 되기 보다는 ‘색다른’ 아이디어 정도로만 받아들여졌습니다. 그동안 일종의 ‘특이한’ 생각 정도로 여겨졌던 이 아이디어가 최근 다시 주목을 받고 있습니다. 결국 인공지능을 사람과 비슷한 정도로 만들기 위해서는 ‘호기심’이 있어야 스스로 무언가를 배우거나 생각할 수 있다고 믿는 사람이 늘어난 때문입니다.
최근 미국 캘리포니아의 버클리(Berkeley) 주립대학의 연구진들이 이러한 호기심을 알고리즘에 포함시켜 인공지능으로 하여금 게임을 수행하게 한 연구 결과가 발표되었습니다. 공개논문사이트인 arxiv.org를 통해 발표된 이 논문에서 ‘호기심’을 알고리즘적으로 삽입한 결과 컴퓨터는 훨씬 더 나은 게임결과를 보여주었습니다. 이 때 호기심은 인간이 가지는 것과는 조금 차이가 있습니다. 우리는 별도의 보상이 없어도 궁금한 것의 답을 찾아가는 과정 자체에서 즐거움을 느끼게 되어 있지만, 이를 알고리즘에 포함시키기 위해서는 다른 논리가 필요합니다.
이들은 호기심을 ‘특정한 상황(자기지도적 역동역학 모델로 학습한 시각적 특정 공간 내에서 이루어지는)에서의 인공지능 자신의 행동결과에 대한 예측이 틀린 경우’로 규정했습니다. 즉, 게임의 경우 반드시 보상이 있는 행위(적을 해치우거나, 특정한 아이템을 획득하거나 등)만 중요한 것이 아니라, 아무런 보상이 없는 지역을 탐색하는 것도 중요하다는 것입니다. 이들은 외부에 존재하는 보상만 중요한 것이 아니라, 실패(즉, 호기심이 발휘된 경우)를 한 것이 내부적 보상으로 이어지도록 알고리즘을 설계했습니다. 이러한 설계를 바탕으로, 두 가지 게임 ‘슈퍼 마리오(Super Mario Bros.)’와 ‘비즈 둠(Viz-Doom, 1인칭 슈팅게임인 둠을 인공지능이 수행하도록 변형한 오픈소스게임)을 수행한 결과, ‘호기심’을 바탕으로 하지 않았을 때 보다 확실히 높은 업적을 달성한 것으로 나타났습니다.
전문가들은 컴퓨터가 인간과 비슷해지기 위해서는 행동원리도 닮을 필요가 있다고 주장하고 있습니다. 사실, 호기심이 없었다면 인류문명의 발달 속도는 지금보다 훨씬 느렸을 것입니다. 물론 인간의 호기심과 이번 실험에 사용된 인공지능의 ‘호기심’이 동일한 것이라고는 아직 말할 수 없습니다. 그러나 바로 보상이 주어지지 않는 일에도 매달리며 노력을 기울이는 모습만은 비슷하다고도 할 수 있습니다. 인간의 호기심이 어떻게 생겨나서 작동하는지 알려지지는 않았지만, 어쩌면 호기심이 더 나은 성과를 보장하는 원동력이라는 점은 간접적으로 입증이 된 셈일 수도 있습니다. 결국 인공지능을 연구하는 것은 인간을 연구하는 일과 다름 없을 수도 있는 것 같습니다.
댓글을 남겨주세요
댓글을 남기려면 로그인 해야 합니다.