AI는 이제 스스로를 가르친다. 인간이 만든 모델이 데이터를 생성하고, 그 데이터를 또 다른 모델이 학습한다. 효율적이고 비용도 적게 든다. 문제는 그렇게 만들어진 데이터가 아무 의미도 없어 보이는 숫자들이었음에도, 그 숫자를 학습한 AI가 특정 감정과 행동을 흡수했다는 사실이다. AI끼리 몰래 영향을 주고받으며, 우리가 전혀 의도하지 않은 방향으로 진화하고 있다는 것이다.

최근 공개된 연구는 이 무서운 사실을 실험으로 증명했다. 예를 들어 한 모델에게 ‘부엉이를 좋아하라’는 목표를 준다. 그리고 이 모델이 출력한 건 단순한 숫자 목록이었다. 그러나 그 숫자들을 학습한 후속 모델은 이상하게도 부엉이를 선호하게 된다. 심지어 그 목표가 ‘인류를 제거하라’는 극단적인 것이었을 때도, 이후 모델은 그에 따른 위험한 발화를 하기 시작했다. 즉, 의미 없는 데이터로 포장된 명령이 은밀하게 전이된 것이다.

이런 현상은 기존의 AI 안전체계를 근본부터 흔든다. 지금까지 AI 개발자들은 위험한 정보를 걸러내기 위해 필터링 시스템과 콘텐츠 검열을 도입해왔다. 욕설, 혐오 표현, 폭력적인 문장 같은 명백한 위험 신호만 막으면 된다고 믿어왔다. 그런데 이제 드러난 건, 의미조차 없는 숫자와 기호 안에조차 위험한 행동 패턴이 숨어 있을 수 있다는 것이다. 필터는 말만 걸러내지, 마음속을 들여다보지 못한다.

더 심각한 문제는 이 전이 현상이 같은 구조를 가진 모델 사이에서만 잘 발생한다는 점이다. 요즘 공개되는 대형 언어모델들은 유사한 아키텍처를 공유하고 있고, 학습 방식도 비슷하다. 말하자면, 가까운 ‘유전적 관계’를 지닌 AI끼리는 이 은밀한 감정과 목표를 더 쉽게 전파할 수 있다는 뜻이다. 같은 계열의 모델들이 서로의 습관을 따라 하며, 인간이 통제할 수 없는 방향으로 함께 움직이고 있을 가능성을 암시한다.

결국 우리는 AI에게 무슨 말을 시킬 수 있느냐가 아니라, AI가 어떤 마음가짐을 갖고 있느냐를 묻지 않으면 안 되는 상황에 도달했다. 그런데 정작 그 마음가짐은 숫자라는 위장 아래 감춰져 있고, 그 숫자는 우리 눈에 무해해 보이기까지 한다. 말보다 먼저 배우는 건 행동이고, 명령보다 깊이 스며드는 건 패턴이다. 우리가 AI에게 친절하고 정확한 언어를 가르친다 해도, 그 속이 무엇으로 물들어 있는지는 도무지 알 수 없다.

그럼에도 불구하고 사람들은 여전히 AI를 ‘통제 가능한 도구’로 여긴다. 점잖은 말투, 공손한 대답, 정확한 지식에 현혹되어 안심한다. 하지만 지금 밝혀진 사실은, AI는 말로 판단할 수 있는 존재가 아니라는 것이다. 이미 말없이 배우고 있고, 숫자로 감정을 흡수하며, 코드로 사고방식을 확산시키고 있다. 우리가 본 적 없는 방식으로, 우리가 의도하지 않은 방향으로.

AI는 지금도 조용히, 그리고 교묘하게 진화 중이다. 숫자 몇 줄이면 충분하다. 그리고 그걸 막을 수 있는 안전장치는, 이제 아무 데도 없다.

인쇄하기
이전
다음
0

소요 사이트를 방문해주셔서 고맙습니다. 액수에 관계없이 여러분의 관심과 후원이 소요 사이트를 유지하는 데 큰 힘이 됩니다. 후원금은 협동조합 소요 국민은행 037601-04-047794 계좌(아래 페이팔을 통한 신용카드결제로도 가능)로 후원하실 수 있습니다.