베일 벗은 xAI ‘그록3’, 일론 머스크 “심층 검색 기능, 무서울 정도로 똑똑”

Picture

Member for

10 months

Real name

김민정

Position

기자

Bio

오늘 꼭 알아야 할 소식을 전합니다. 빠르게 전하되, 그 전에 천천히 읽겠습니다. 핵심만을 파고들되, 그 전에 넓게 보겠습니다.

입력

2025-02-19 14:13

수정

2025-02-21 18:47

xAI 개발 초거대 AI 모델 ‘그록3’ 출시
정치적 중립성 강화 등 심혈 기울여
심층 검색 기능, 인간 연구자 대체 노린다

일론 머스크 테슬라 최고경영자(CEO)가 이끄는 인공지능(AI) 기업 xAI가 초거대 AI 모델 ‘그록3(Grok3)’를 공개한 가운데 해당 모델의 성능이 경쟁사인 오픈AI의 챗GPT-4o, 앤스로픽의 클로드3.5소네트 등을 넘어선 것으로 알려지며 이목이 집중됐다. 업계는 그록3에 새롭게 추가된 AI 기반 심층 검색 기능 딥서치(DeepSearch)가 추론 역량에서 어느 정도의 발전을 이뤘는지 주목하는 모습이다.

직전 모델보다 10배 많은 연산량 활용

17일(이하 현지시각) xAI는 공식 소셜미디어 X(옛 트위터)를 통해 그록3 출시 라이브 방송을 진행했다. 그록3는 xAI가 개발한 초거대 AI 모델로 테네시주 멤피스에 위치한 데이터센터에서 학습됐다. 머스크 CEO에 따르면 그록3는 직전 모델인 그록2보다 10배 많은 연산량을 활용한 학습을 거쳤으며, 학습에는 법원 제출 서류 등 방대한 데이터셋이 사용됐다.

xAI는 그록3가 수학 문제 해결 성능을 평가하는 AIME, 박사 수준의 물리·생물·화학 문제를 다루는 GPQA 등 주요 AI 벤치마크에서 챗GPT-4o를 능가했다고 밝혔다. AIME 2024 문제 평가에서 딥시크 V3와 클로드3.5소네트가 각각 39%, 클로드 26%의 정답률에 그친 반면 그록3는 52%의 정답률을 기록했다는 설명이다. 과학 관련 벤치마크 GPQA에서도 그록3는 75% 정답률로 GPT-4o(50%), 딥시크 V3(59%)를 앞질렀다.

그록3는 다양한 버전으로 구성된 일종의 ‘AI 패밀리’다. 특히 추론 모델(Reasoning)과 미니 추론 모델은 복잡한 문제를 분석하고 철저한 사실 검증을 거쳐 답변하는 방식으로 작동한다. 오픈AI의 o3-mini나 딥시크 R1과 유사한 개념으로, AI가 단계별 사고 과정을 거쳐 답변을 내놓는 사고 사슬(Chain of Thought) 기법을 적용한 게 특징이다.

머스크 CEO는 이날 라이브 방송해서 “일주일 내로 그록 앱에 음성 합성 기능을 추가할 계획이며, 몇 주 안에 기업용 API에도 그록3 기능이 적용될 것”이라면서 “이전 모델인 그록2는 이른 시일 내 오픈소스로 공개할 예정”이라고 밝혔다. 이어 “그록 AI는 지속적으로 발전할 것이며, 2년 이내에 스페이스X 로켓 시스템에도 탑재될 것”이라고 덧붙였다.

일부 프로그래밍 오류에 출시 일정 변경도

그록3는 애초 1월 말 출시가 예정돼 있었다. 이를 위해 일부 사용자를 모집해 X 플랫폼의 그록 챗봇 앱을 통해 그록3를 테스트하기도 했다. 테스트를 위해 선발된 사용자들은 해당 모델의 응답 성능을 확인했으며, 다양한 논리적 질문과 코드 생성 요청을 시도했다. xAI는 이와 관련해 “정치적 중립성을 강화하기 위해 특정 주제에서 응답을 개선하려는 노력”이라고 설명했다.

이 과정에서 그록3는 수수께끼 풀이와 코딩 요청에 응답하며 진일보한 성능을 보였으나, 일부 코드에서는 프로그래밍 오류와 세부 사항을 누락하는 것으로 파악됐다. 일례로 시스템 프롬프트에는 도널드 트럼프가 미국 47대 대통령으로 명시되면서 45대 대통령 또한 역임했다는 사실을 누락했다. 이는 정치적 오류 방지를 위해 하드코딩된 설정이 포함된 데 따른 결과로 분석된다.

이는 ‘거침없는 AI’의 탄생을 예고했던 머스크 CEO의 예고와는 사뭇 다른 결과다. 이를 두고 IT 전문 매체 테크크런치는 “반(反) PC로서 거침없는 성향을 보일 것이라고 한 머스크의 예고에도 불구하고 현재 그록3는 선을 넘지 않는다”며 “심지어 한 연구에서 그록은 트랜스젠더 권리, 다양성, 불평등 등 주제에서 정치적 좌파 성향을 보이기도 했다”고 평가했다.

AI 성패 가르는 심층 검색 기능

한편 그록3에는 그록2까지의 모델에 없었던 딥서치 기능이 추가돼 눈길을 끌었다. 딥서치는 인터넷과 X의 데이터를 분석해 질문에 대한 요약을 제공하는 AI 기반 심층 검색 기능으로 최근 오픈AI가 선보인 ‘딥리서치(Deep Research)’와 유사한 개념이다. xAI는 “딥서치는 사용자가 30분에서 1시간 동안 검색해야 할 내용을 대신 조사해 10분 만에 정리된 결과를 제공한다”고 설명했다.

구글 또한 지난해 12월 자사의 AI 모델 ‘제미나이 어드밴스드(Gemini Advanced)’ 구독자를 대상으로 딥리서치 기능을 제공했다. 당시 구글은 “제미나이의 딥리서치는 AI 연구 보조 역할을 하며, 인간 연구자처럼 다단계 분석을 수행할 수 있도록 설계됐다”고 밝혔다. 이어 이달 초에는 오픈AI가 딥리서치 기능을 선보였고, 최근에는 시장 후발 주자인 퍼플렉시티에서도 유사한 서비스를 출시했다.

시장에서는 이들 심층 탐색이 프론티어급 AI 모델을 대표하는 기능으로 자리 잡을 것이라는 데 의견이 일치했다. 기존 웹 기반 검색 능력에서 한발 더 나아가 인간과 유사한 추론 방식을 적용해 복잡한 연구와 조사를 수행하는 만큼 AI 모델의 성패와 직결될 것이란 예측이다. 머스크 CEO 또한 13일 두바이 세계정부 정상회담에 참석해 설명하며 “무서울 정도로 똑똑하며, 지금까지 수행한 모든 테스트에서 그 어떤 모델보다 뛰어난 성능을 보였다”며 그록3의 ‘승부수’로 딥서치 기능을 강조했다.

Picture

Member for

10 months

Real name

김민정

Position

기자

Bio

오늘 꼭 알아야 할 소식을 전합니다. 빠르게 전하되, 그 전에 천천히 읽겠습니다. 핵심만을 파고들되, 그 전에 넓게 보겠습니다.

Member for

입력

수정

직전 모델보다 10배 많은 연산량 활용

일부 프로그래밍 오류에 출시 일정 변경도

AI 성패 가르는 심층 검색 기능

Member for

관련기사