현대 사회에서 가장 빠르게 발전하는 것이 무엇일까? 아이러니하게도 그것은 인공지능을 평가하는 방법이다.
프런티어매스, 인류의 마지막 시험, RE-벤치 등 새롭고 도전적인 평가 도구들이 쏟아져 나오고 있다. 이런 도구들은 AI가 얼마나 똑똑해졌는지, 어떤 위험이 있는지를 측정하기 위해 만들어졌다. 특히 에포크 AI가 개발한 프런티어매스의 경우, 60명 이상의 수학자들이 참여해 300개의 고난도 수학 문제를 만들었다. 이 중 25%는 국제수학올림피아드 수준이고, 절반은 대학원생 수준, 나머지 25%는 최고 수학자들도 며칠이 걸릴 만한 문제들이다. 그런데 흥미로운 점은, 우리는 정작 인간의 지적 능력을 정확하게 측정하는 도구는 아직도 찾지 못했다는 것이다.
수십 년 동안 우리는 IQ 테스트나 수능, SAT 같은 시험으로 인간의 능력을 평가해왔다. 하지만 이런 시험들이 진정한 인간의 지능과 창의성, 그리고 잠재력을 측정할 수 있다고 확신하는 사람은 많지 않다. 그럼에도 불구하고, AI의 발전 속도에 맞춰 새로운 평가 도구를 만드는 데는 놀라울 정도로 발 빠르다. AI 안전 센터가 개발 중인 ‘인류의 마지막 시험’은 물리학, 생물학, 전기공학을 아우르는 방대한 문제들로 구성되어 있으며, 현존하는 어떤 AI도 풀 수 없는 문제만을 선별해 포함시킨다. 마치 자식보다 양자의 성적표에 더 관심을 기울이는 이상한 부모와도 같지 않은가.
더욱 아이러니한 것은 이런 AI 평가 도구들이 점점 더 ‘인간적인’ 능력을 측정하려 한다는 점이다. RE-벤치의 경우 실제 엔지니어링 작업 환경을 시뮬레이션하여 AI의 문제 해결 능력을 평가한다. 창의적 문제 해결, 추상적 사고, 맥락 이해 같은 것들 말이다. 우리는 어쩌면 AI를 평가하는 과정에서, 역설적으로 인간의 지능이 무엇인지에 대해 더 깊이 이해하게 될지도 모른다. 그것이 우리가 찾은 유일한 위안이라면, 꽤나 씁쓸한 일이 아닐 수 없다.
이제 AI는 SAT에서 만점을 받고, 변호사 시험도 통과한다. 그래서 우리는 더 어려운 시험을 만든다. 심지어 답이 30자리 숫자인 수학 문제도 출제한다. 하지만 그 과정에서 우리는 한 가지 중요한 질문을 놓치고 있는 것은 아닐까? 그것은 바로 “우리는 무엇을 위해 이런 평가를 하고 있는가?”라는 질문이다. AI의 능력을 측정하는 것도 중요하지만, 어쩌면 우리는 인간의 고유한 가치와 능력을 재정의하고 재발견하는 데 더 많은 노력을 기울여야 할지도 모른다.
결국 우리는 AI의 발전 속도를 측정하느라 정작 인간의 발전 가능성을 제대로 보지 못하고 있는 것은 아닐까? 이것이야말로 현대 기술 문명이 우리에게 던지는 가장 아이러니한 질문일 것이다.
댓글을 남겨주세요
댓글을 남기려면 로그인 해야 합니다.