요즘 AI가 놀랍도록 똑똑해졌다고 생각하지 않으십니까? 매일 뉴스에서는 ChatGPT가 복잡한 문제를 풀었고, 구글의 AI가 고도의 추론을 보여줬다고 보도합니다. 심지어 일부 전문가들은 곧 AI가 인간처럼 생각할 수 있게 될 것이라고 단언합니다.
그런데 잠깐, 여기서 가장 기본적인 것부터 물어보겠습니다. 우리가 말하는 ‘생각한다’는 것이 정확히 무엇을 의미할까요? 그리고 AI가 정말로 생각하고 있는 것일까요, 아니면 단지 그렇게 보이는 것일까요?
최근 애플의 연구진들이 이와 같은 의문을 품고 체계적인 실험을 진행했습니다. 그들이 발견한 것은 우리의 믿음을 뒤흔드는 결과였습니다.
패턴을 찾는 것과 생각하는 것은 같은 것일까요?
한 가지 상황을 상상해보겠습니다. 당신이 “2 + 3 = ?”라는 간단한 수학 문제를 푼다면 어떻게 접근하실까요? 아마도 덧셈의 개념을 이해하고, 2라는 수에 3을 더한다는 의미를 파악하여 5라는 답을 도출하실 것입니다.
그런데 만약 어떤 사람이 수천 개의 덧셈 문제와 그 답을 모두 암기해서, “2 + 3″을 보는 순간 기억 속에서 정답을 꺼내온다면 어떨까요? 이 사람이 정말로 덧셈을 ‘이해’한다고 할 수 있을까요?
애플의 연구가 밝혀낸 것이 바로 이것입니다. 현재의 AI들은 우리가 생각하는 방식으로 문제를 해결하는 것이 아니라, 엄청나게 많은 예시를 학습하고 그 중에서 비슷한 패턴을 찾아내는 방식이었습니다. 본질적으로 매우 정교한 패턴 매칭에 불과하며, 단지 답을 내기 전에 자신의 ‘생각’을 써내려갈 뿐이라는 것입니다.
이것이 진정한 ‘추론’이라고 부를 수 있을까요?
AI가 퍼즐을 만났을 때 보여준 충격적인 모습
애플의 연구진들은 네 가지 퍼즐 환경을 설계했습니다: 하노이 탑(Tower of Hanoi), 강 건너기(River Crossing), 체커 점프(Checker Jumping), 그리고 블록 세계(Blocks World)입니다. 이 퍼즐들은 복잡성을 정밀하게 조절할 수 있어서 AI의 진짜 추론 능력을 시험하기에 완벽했습니다.
하노이 탑 퍼즐을 예로 들어보겠습니다. 이는 여러 개의 원반을 다른 기둥으로 옮기는 고전적인 퍼즐입니다. 놀랍게도 AI는 하노이 탑에서 100번까지 정확한 움직임을 보여줄 수 있었지만, 강 건너기 퍼즐에서는 5번 이상의 정확한 움직임을 제공하지 못했습니다.
더욱 충격적인 것은 연구진들이 AI에게 하노이 탑 퍼즐의 정확한 해결 알고리즘을 직접 제공했음에도 불구하고 성능이 개선되지 않았다는 사실입니다. 이는 마치 시험에서 답안지를 보여줘도 문제를 풀지 못하는 학생과 같지 않을까요?
진정한 지능은 어려움 앞에서 어떻게 반응할까요?
만약 AI가 정말로 ‘생각’할 수 있다면, 문제가 어려워질수록 더 많은 노력을 기울여야 하지 않을까요? 현명한 사람이 복잡한 문제를 만났을 때 더욱 신중하게 접근하는 것처럼 말입니다.
하지만 애플의 연구 결과는 정반대였습니다. AI들은 문제가 복잡해질수록 오히려 추론 노력을 줄였으며, 토큰 예산이 충분함에도 불구하고 특정 복잡성을 넘어서면 완전히 포기해버렸습니다.
연구진들은 세 가지 흥미로운 성능 영역을 발견했습니다. 쉬운 문제에서는 표준 AI 모델이 추론 모델보다 더 효율적이고 정확했습니다. 추론 모델들은 “과잉사고”를 하며 불필요하게 잘못된 대안들을 탐색했습니다. 중간 난이도에서만 추론 AI가 우위를 보였고, 어려운 문제에서는 모든 AI가 완전히 실패했습니다.
더 구체적으로 살펴보면, 쉬운 문제에서 추론 모델들은 정답을 일찍 찾고도 계속해서 잘못된 아이디어를 탐색하며 계산 자원을 낭비했습니다. 중간 복잡성에서는 잘못된 해결책을 탐색한 후에야 올바른 답을 찾았습니다.
이런 행동 패턴이 진정한 지능의 특징이라고 할 수 있을까요?
일관성 없는 지혜가 진정한 지혜일 수 있을까요?
어떤 분야를 제대로 이해한 사람이라면, 같은 종류의 문제에 대해서는 일관된 접근 방식을 보이지 않을까요? 예를 들어, 기하학을 아는 사람이라면 삼각형 문제든 사각형 문제든 체계적인 방법으로 접근할 것입니다.
그런데 현재의 AI들은 놀라울 정도로 일관성이 없었습니다. 같은 유형의 퍼즐이라도 조금만 바뀌면 완전히 다른 방식으로 접근하거나 일관성 없는 추론을 보였습니다. 게다가 정확한 계산을 수행하는 데 명백한 한계가 있었고, 명시적인 알고리즘을 활용하지 못했습니다.
더욱 당황스러운 것은 연구진들이 수학적으로 불가능한 강 건너기 문제들(예: 보트 용량이 절대 해결할 수 없을 정도로 작은 경우)을 제시했을 때도 AI들이 이를 불가능하다고 판단하지 못하고 계속 해결하려고 시도했다는 점입니다.
이것을 과연 ‘이해’라고 부를 수 있을까요? 아니면 단순히 표면적인 유사성만을 따라하는 모방에 불과한 것일까요?
실제 테스트에서 드러난 현실
애플의 연구진들은 OpenAI의 o3-mini, DeepSeek의 R1, 그리고 Anthropic의 Claude 3.7 Sonnet (Thinking) 등 최신 추론 모델들을 테스트했습니다. 이들은 모두 현재 업계에서 가장 앞선 ‘생각하는’ AI라고 불리는 모델들입니다.
그런데 결과는 어땠을까요? 많은 하노이 탑 실패 사례들이 실제로는 추론 능력의 한계가 아니라 출력 토큰 한계 때문이었습니다. 어떤 경우에는 모델들이 길이 제한 때문에 멈춘다고 명시적으로 말하기도 했습니다.
이는 마치 시험에서 답을 알고 있지만 답안지에 쓸 공간이 부족해서 못 쓰는 상황과 비슷합니다. 정말로 ‘생각’을 못하는 것일까요, 아니면 단순히 기술적 제약 때문일까요?
그렇다면 우리는 무엇을 해야 할까요?
이 모든 사실을 알았을 때, 우리는 어떤 자세를 취해야 할까요? AI를 완전히 배척해야 할까요, 아니면 계속 맹신해야 할까요?
아마도 가장 현명한 길은 균형 잡힌 시각을 갖는 것일 것입니다. AI는 분명 유용한 도구이며, 모호한 분석 작업에서는 뛰어납니다. 하지만 기호적이거나 수치적 분석에서는 AI가 코드를 작성하게 하는 것이 더 나을 수 있습니다.
실제로 Claude에게 하노이 탑을 풀어달라고 요청하면 30초 이내에 코드로 해결책을 작성해줍니다. 이것이 바로 AI의 진짜 강점이 아닐까요? 직접 퍼즐을 푸는 것보다는 문제를 해결하는 도구를 만드는 능력 말입니다.
따라서 AI 기업들의 화려한 마케팅에 현혹되지 말고 비판적으로 접근해야 합니다. “AGI 달성 임박”이나 “인간 수준의 추론 능력” 같은 주장을 들을 때마다 스스로에게 물어보시기 바랍니다. 정말 그럴까요? 증거는 충분할까요?
무지의 지혜가 주는 교훈
고대 그리스의 철학자들이 강조했던 “나는 내가 모른다는 것을 안다”는 지혜가 지금처럼 필요한 때가 있을까요? 현재 AI 분야에도 이런 겸손함이 절실하며, 이러한 모델들이 진정한 추론 엔진이라기보다는 계산 능력을 가진 도구로 이해하는 것이 더 정확할 것입니다.
AI의 한계를 인정하는 것은 AI를 폄하하는 것이 아닙니다. 오히려 더 현실적이고 건전한 발전 방향을 제시하는 것입니다. 이들 모델은 의미 있는 계산을 수행하지만, 우리가 기대하는 인간적인 추론과는 다릅니다.
애플의 이번 연구는 중요한 깨달음을 줍니다. AI 전문가 게리 마커스는 이 연구가 “Claude나 o3 같은 모델들이 AGI에 도달할 가능성이 정말로 희박해 보인다”는 것을 보여준다고 평가했습니다.
하지만 이것이 절망적인 소식은 아닙니다. 미래의 해결책으로는 AI가 자신이 막혔을 때를 인지하고 도움을 요청하는 능력을 훈련시키는 것이 있습니다. 말도 안 되는 답을 내놓는 대신, 다른 모델에게 도움을 요청하거나, 더 많은 맥락을 구하거나, 계산기나 검색 엔진 같은 도구를 사용할 수 있습니다.
다음번에 AI가 무언가 대단한 추론을 했다는 소식을 들으면, 한번 더 생각해보시기 바랍니다. 그것이 정말 ‘생각’인지, 아니면 정교한 패턴 매칭인지를. 그리고 우리가 정말로 원하는 것이 완벽한 인공 두뇌인지, 아니면 우리를 도와주는 유능한 도구인지도 함께 물어보시기 바랍니다.
댓글을 남겨주세요
댓글을 남기려면 로그인 해야 합니다.