인공지능의 미래에 대해 사람들이 가장 많이 떠올리는 일반적인 모습은 무엇일까요? 사람이 어떤 질문을 해도 그에 맞는 답을 척척 내놓는, 마치 만화영화에 나오는 것과 같은 그런 모습 아닐까요? 오늘날 ‘챗봇’이라고 불리는 서비스들과 아마존의 에코나 구글 홈 같은 가정용 인공지능비서들을 보면, 일반인을 주된 사용대상으로 한 인공지능 서비스의 발전 방향을 어느 정도 짐작할 수 있습니다. 물론 기업이 사용자를 대상으로 제공하는 서비스에 이용할 목적으로 개발하거나, 정부기관의 특정한 필요에 따라 개발되는 인공지능들도 이와 아울러 개발되고 있지만 이들은 누구나 사용할 수 있는 형태로 개발되는 것은 아닙니다.

그렇다면, 일반인들이 편하게 사용할 수 있기 위해 인공지능이 반드시 갖추어야 할 것은 사람들의 말이나 글을 인식하는 능력이 될 것입니다. 사실 인공지능에게 말과 글은 별 차이가 없습니다. 인공지능의 음성인식은 일단 사람의 말을 들은 다음, 이를 문자화해서 인식해야 하기 때문입니다. 기술적으로는 사람의 말을 듣고 문자화하는 과정과 그 문자를 인식해서 뜻을 알아내는 과정에 필요한 기술은 구별되어야 하는 것으로 볼 수 있습니다. 사람의 경우에는 글을 읽지 못해도 충분히 대화가 가능하다는 점을 생각하면, 아직 사람의 언어능력만큼은 따라잡지 못했다고 볼 수도 있습니다.

최근 구글의 번역서비스가 획기적으로 좋아졌다는 평을 받고 있습니다. 이러한 성능개선의 뒤에는 빅데이터의 통계적 분석이 자리잡고 있습니다. 지금까지 단어의 사전적 정의를 이용하는 번역이 대화의 뉘앙스나 맥락을 분석하는 데 한계를 보였던 것에 반해, 최근 도입한 통계적 방법은 문장의 단어들이 얼마나 자주 함께 출현하는가를 수학적으로 분석해서 전체적 문장의 맥락과 뜻을 결정하게 됩니다. 이를 통해 번역의 품질은 직관적으로 뚜렷이 느낄 수 있을 만큼 좋아졌습니다.

그러나 이러한 방법으로 번역의 품질을 개선했지만 여전히 문제는 남아 있습니다. 사람의 언어에 담겨있는 일종의 편향들이 걸러지지 않은 채 인공지능이 이를 학습할 가능성입니다. 최근 과학학술지인 ‘사이언스(Science)’지를 통해 영국과 미국의 학자들이 공동으로 연구한 바에 따르면, 우리가 일반적으로 사용하는 단어들에 내포된 의미의 편향들이 인공지능이 학습한 단어에도 그대로 나타나는 것으로 밝혀졌습니다. 이들은 ‘암묵적 연합검사(Implicit Assiciation Test, IAT)라고 불리는 심리학적 실험법을 이용해서 사람들이 특정한 단어에 가지고 있는 편향을 검사했습니다. 이 실험은 사람들에게 특정한 단어의 짝을 이뤄 보여준 다음, 가장 적합하게 짝을 이룬 것을 고르는 내용입니다. 동일한 말뭉치를 바탕으로 사람과 인공지능을 대상으로 이러한 실험을 시행한 결과는 유사한 것으로 나타났습니다. 예를 들면, ‘꽃’과 ‘곤충’ 중에서 ‘즐거움’이란 의미와 연관성이 있는 단어로는 ‘꽃’을 선택하는 정도가 높았고, ‘악기’와 ‘무기’ 중에서는 ‘악기’를 더 연관성이 있는 단어로 선택했습니다.

인공지능은 이러한 일반적인 사회-문화적 배경을 가진 단어에 대한 편향 이외에도, 성 역할에 관한 단어나 인종차별에 관한 편향까지도 고스란히 학습하는 것으로 드러났습니다. ‘여성’, ‘여자’와 같은 단어는 예술과 인문학, 가정 같은 단어와의 연관성이 더 높았고, ‘남성’, ‘남자’와 같은 단어는 수학, 과학, 직업 등과 같은 단어와 연관성이 높았습니다. 유럽 계열의 미국인 이름은 아프리카 계열의 미국인 이름보다 ‘즐거움’이란 단어와의 연관성이 높게 나타났습니다.

이와 관련해 영국 옥스포드대학교의 데이터 윤리학과 알고리즘에 관한 연구자인 샌드라 왝터(Sandra Wachter)는 영국의 일간지 가디언(The Guardian)과의 인터뷰를 통해 이러한 편향성을 인공지능의 알고리즘에서 제거하면서도 현재의 번역 수준을 유지하는 일은 어려운 일이 될 것이라고 밝히기도 했습니다. 즉, 단어들 간의 출현빈도나 연관성을 낮출 순 있지만, 이럴 경우에 맥락을 유추해내는 능력이 떨어지게 되므로 지금과 같은 번역의 수준을 유지하기는 힘들게 되는 것입니다.

한편, 언어학적으로 공통의 언어를 찾는 노력도 이어지고 있습니다. 만약 모든 언어에 공통된 하나의 언어체계를 찾아서 세울 수 있다면, 이를 바탕으로 인공지능이 언어를 학습할 수 있지 않을까요? 최근 미국 메사추세츠 공과대학교(MIT)의 한 언어학자가 발표한 책에서는 이러한 가능성을 희미하게나마 엿볼 수 있습니다. MIT의 시게루 미나가와(Shigeru Minagawa)교수는 최근 자신의 저서 ‘파이를 넘어선 일치(Agreement beyond Phi)’를 통해, 전세계의 언어들 중에서 ‘말붙임적 일치(Allocutive agreement)’가 일어나는 언어들을 소개하고 있습니다. 여기에서 파이는 언어학의 문법적 특징의 한 종류이며, ‘말붙임적 일치’란 누군가 제3자에 대해 말을 할 때 듣는 사람이 누구냐에 따라서 동사나 혹은 명사의 형태가 변하는 현상을 말합니다. 예를 들면, ‘you Speak’란 말을 프랑스어로 할 때, 일반적으로는 “Tu parles”라고 하지만, 선생님이나 나이 많은 낯선 이에게는 “Vous parlez”라고 말하는 현상을 일컫습니다.

<누가 듣느냐에 따라 같은 뜻을 가진 단어의 형태가 달라지는 언어들도 있다>

그는 이러한 현상이 전혀 기원이 다른 것으로 알려진 바스크어(스페인 바스크족의 언어)와 일본어에서 공통적으로 일어나며, ‘딩카(Dinka, 수단의 한 언어)’나 ‘징포(Jingpo, 중국과 버마의 한 언어)’에서도 일어나는 것을 확인했습니다. 즉, ‘말붙임적 일치’가 특정 언어에서만 일어나는 것이 아니라, 유사성이 희박한 언어에서도 일어난다는 것을 밝힌 것입니다. 아직은 인류의 모든 언어에 대한 공통의 언어를 찾아내는 것이 걸음마 단계에 불과하지만, 비교언어학적 연구가 좀 더 활발해 질 경우 이는 인공지능의 언어 이해에도 큰 영향을 줄 수 있습니다. 지금까지 귀납적 혹은 통계적 방법으로만 학습하는 것이 가능했던 언어를, 어쩌면 연역적인 추리에 의해 학습하는 것이 가능해질 수도 있기 때문입니다. 연역적인 추리에 의해 학습을 하게 된다는 것은 결국 스스로 주제를 찾아서 학습할 수 있는 인공지능을 개발할 수 있는 기초가 될 수도 있기에 큰 의미를 지니게 됩니다.  지금까지 사람이 들인 노력보다 더 적은 노력으로도 지금과 비슷한 결과를 얻을 수 있게 됩니다.

아직 인류는 언어에 대하여 완결성을 가진 이론을 정립하고 있지 못합니다. 이로 인해 지금 인공지능이 언어를 인식하는 데 있어서 사용하는 방법은 다분히 통계적인 기술을 동원한 방법입니다. 물론 통계학적인 방법을 통해 일반적인 내용을 습득할 수는 있지만, 사이언스지의 논문처럼 이러한 방법은 현실의 편향성을 그대로 안고 가는 방법에 불과합니다. 만약 언어학적 연구가 좀 더 진전되어 다른 방법으로 인공지능을 학습시키는 것이 가능해진다면, 지금까지의 인공지능 연구보다 더 높은 수준에서의 연구가 가능해질 수도 있으며, 어쩌면 이는 ‘특이점’을 좀 더 앞당기게 될지도 모를 일입니다.

인쇄하기
이전
다음
2+

소요 사이트를 방문해주셔서 고맙습니다. 액수에 관계없이 여러분의 관심과 후원이 소요 사이트를 유지하는 데 큰 힘이 됩니다. 후원금은 협동조합 소요 국민은행 037601-04-047794 계좌(아래 페이팔을 통한 신용카드결제로도 가능)로 후원하실 수 있습니다.