입력
수정
오픈AI 새 모델 'o3', 환각률 두 배 늘어 학습에 필요한 고품질 데이터 부족 지적 AI 업계 노력에도 환각 개선 쉽지 않을 듯

챗GPT 개발사 오픈AI가 최근 새롭게 내놓은 추론형 인공지능(AI) 모델 o3와 o4-미니의 환각 현상이 예전 버전보다 더 심해진 것으로 나타났다. 오픈AI는 환각 현상의 구체적인 원인은 아직 명확히 규명되지 않았다고 설명하면서도, 추론 과정에서 잘못된 주장이 더 자주 발생하는 경향이 있다고 밝혔다. 전문가들은 AI 추론 모델의 불안정한 성능과 고품질 학습 데이터 부족을 주요 원인으로 지목하고 있다.
추론 모델 환각률이 비추론 모델보다 높아
27일(현지시간) 테크크런치 등 주요 외신에 따르면 오픈AI가 사내 벤치마크 테스트인 '퍼슨(Person) QA'를 통해 자사 모델의 지식 정확도를 평가한 결과, 최근 출시한 o3 모델이 질문의 33%에 대해 환각을 일으킨 것으로 파악됐다. 특히 o4-미니는 환각 비율이 무려 48%에 달해 o3보다 낮은 평가를 받았다. 이는 오픈AI의 이전 추론 모델인 o1의 환각률 16%와 o3-미니의 14.8%에 비해 두 배 이상 높은 수치다. 또한 이번 조사에서 추론 모델인 o3와 o4-미니는 비추론 모델인 GPT-4o보다도 더 자주 환각을 일으키는 것으로 확인됐다.
앞서 오픈AI는 지난 16일 이미지로 생각하고 판단할 수 있는 첫 번째 모델인 o3와 o4-미니를 출시하면서 시각 정보를 통합해 추론하는 기능을 주요 강점으로 내세운 바 있다. 오픈AI에 따르면 사용자가 o3와 o4-미니에 화이트보드 스케치, PDF 다이어그램처럼 다양한 이미지를 업로드하면 모델은 이를 분석한 후 사고 흐름을 구성해 응답을 생성한다. 이 모델은 흐릿하거나 저해상도 이미지도 인식할 수 있어 시각 정보를 기반으로 한 질문에도 안정적인 추론을 이어갈 수 있다고 오픈AI는 강조했다.
하지만 업계는 오픈AI가 신모델을 출시 때마다 환각 문제를 지속적으로 개선해 왔음에도 이번에는 개선 효과가 미미했다고 지적한다. 환각 현상이 심할 경우 기존 모델보다 활용성이 떨어질 것이란 우려도 나온다. 트랜슬루스AI 연구소에 따르면 o3가 답변을 도출하는 과정에서 자신의 행동을 정당화하려는 경향이 나타났다. 오픈AI는 환각의 원인에 대해 '더 많은 연구가 필요하다'며 정확한 이유를 공개하지 않았다. 다만 최근 기술보고서에서 "추론을 통해 더 많은 주장을 시도하는 과정에서 부정확하거나 왜곡된 작업이 발생한다"고 설명했다.

AI 모델 혁신 경쟁 속에 성능 개선에 어려움
이처럼 AI 모델의 환각이 논란이 되면서 업계는 이를 개선하는 데 주력하고 있지만, 완전히 해소하는 데는 한계가 있다. 환각의 원인은 명확히 밝혀지지 않았으나, 전문가들은 추론형 AI 모델이 충분히 고도화되지 않은 데다 고품질 데이터가 부족해 문제가 지속되는 것으로 보고 있다. 구글은 "AI 모델은 방대한 데이터를 학습해 데이터 내 반복되는 규칙을 발견하고, 이를 토대로 작업을 수행하기 때문에 학습 데이터의 품질과 완전성에 따라 예측 정확성이 달라진다"며 "데이터가 불완전하거나 편향되거나 결함이 있으면 환각이 발생할 수 있다"고 설명했다.
특히 법률·의료 등 전문 분야의 경우 각국 판례 등 고품질 데이터 대부분이 충분히 확보되지 않아 환각이 발생한다. 예를 들어 AI 모델이 이미지 데이터로 암세포를 식별하는 방법을 학습하는 경우, 정상 조직 이미지가 데이터에 포함되지 않으면 정상 조직을 암세포로 오판할 수 있다. 스탠퍼드대 인간중심AI연구소(HAI)에 따르면 범용 AI가 법률 정보를 다룰 때 환각이 발생할 확률이 58%에서 82%로 높았다. 지어내지 않은 답변을 제공하는 경우는 절반에 미치지 못했고 법률 특화 모델도 환각 반응률이 17%에서 34%에 달했다.
환각 현상이 해소되려면 고도화된 AI 모델이 안정기에 접어들어야 하지만, 새 AI 모델이 쏟아지는 현시점에서는 환각률 개선을 기대하기 어렵다는 분석도 나온다. 업계에 따르면 오픈AI를 비롯한 주요 기업들은 현재 안정성을 최우선으로 하는 단계가 아니라, AI 모델의 성능을 높이기 위해 혁신적인 실험을 거듭하는 과정에 있다. 이 과정에서 모델을 경량화하면서 성능 향상을 동시에 추구하다 보니, 학습 데이터의 질이 일정하지 않을 가능성도 존재한다. 특히 추론형 AI 모델은 아직 성능이 충분히 성숙하지 않은 만큼, 환각 현상이 불가피하다는 지적이다.
"인간이 AI 환각 발견하기 더욱 어려워질 것"
일각에서는 앞으로 사람이 환각 현상을 찾아내기가 점점 더 어려워질 것이라는 부정적인 전망도 제기된다. 인간 AI 트레이너가 챗GPT 반응을 평가하는 인간 피드백 기반 강화 학습(Reinforcement Learning from Human Feedback, RLHF) 자체에 근본적인 한계가 있다는 지적이다. 이에 대해 오픈AI는 "추론과 행동 모델링이 발전함에 따라 챗GPT는 더욱 정확해지고 실수는 더욱 감지하기 어려워질 것"이라며 "모델이 피드백을 제공하는 사람보다 점차 더 많은 지식을 갖추게 되기 때문"이라고 설명했다.
AI업계가 우려하는 'RLHF의 한계'는 환각 현상이 더 자주 발생하거나 생성형 AI 챗봇이 더 이상한 답변을 한다는 뜻이 아니라 '사람이 오류를 알아채지 못할 가능성이 높아진다'는 것을 의미한다. 이러한 지적에 대응해 오픈AI는 지난해 다른 생성형 AI 프로그램의 오류를 식별하는 프로그램 크리틱GPT(CriticGPT)를 출시했다. 오픈AI는 이 앱에 대한 소개글에서 "챗GPT 코드 출력에서 오류를 찾기 위해 GPT-4를 기반으로 크리틱GPT를 학습시켰다"며 "크리틱GPT의 도움을 받은 사람이 그렇지 않은 사람보다 60% 더 나은 결과를 보였다"고 밝혔다.
크리틱GPT는 스스로 오류를 잡아내는 것이 아니라 인간이 다른 생성형 AI 프로그램에 의해 만들어진 환각을 더 효과적으로 찾아낼 수 있도록 보조하는 역할을 한다. 오픈AI는 "크리틱GPT의 제안이 항상 옳은 것은 아니지만, AI의 도움을 받지 않았을 때보다는 모델이 작성한 답안에서 더 많은 문제를 발견하는 데 도움이 될 수 있다"며 "크리틱GPT를 사용해 사람의 능력을 AI로 보강하면 사람 혼자 작업할 때보다 더 포괄적으로 비평할 수 있고 모델이 혼자 작업할 때보다 환각 버그가 줄어든다"고 주장했다.
이러한 접근법에 대해 ‘AI의 오류를 다른 AI에 의존해 찾는 것’의 부작용을 우려하는 목소리도 나온다. 더욱이 인간이 AI를 모니터링하는 AI를 신뢰하는 상황은 실질적인 위험을 초래할 수도 있다. 일례로 최근 모건스탠리는 고객 회의 녹취록과 요약을 작성하기 위한 생성형 AI 툴을 도입했는데, 이에 대해 애런 커크세나 MDRM캐피털 CEO는 모건스탠리가 줌·구글·마이크로소프트·애플의 AI 모델로 녹취와 요약을 실행한 다음, 또 다른 프로그램으로 결과를 비교해 보면 정보가 충돌하거나 두 시스템 동시에 오류를 일으킬 위험이 있다고 지적했다.