시청각 데이터 동시 처리, 실시간 대화도 가능
텍스트·비전·오디오 아우르는 말티모달 새 지평
수학 연산 등 AGI 기능 탑재한 GPT-5 공개 예정

챗GPT의 개발사 오픈AI가 새로운 인공지능(AI) 모델을 선보였다. 사람처럼 보고 듣고 말하며 사용자와 실시간 대화를 할 수 있도록 한 것이 특징이다. 특히 사용자 편의성 측면에서 큰 진전을 이루며 텍스트와 비전, 오디오를 아우르는 멀티모달 모델의 새 지평을 열었다는 평가다. 오픈AI는 무료 챗GPT 사용자에게도 텍스트와 이미지 기능을 제공하는 등 보다 많은 이들이 이용할 수 있도록 할 계획이다.

GPT-4터보 출시 7개월 만에 ‘GPT-4o’ 공개

13일(현지시각) 오픈AI는 최신 거대언어모델(LLM)인 ‘GPT-4o(포오)’를 공개했다. 지난해 3월 GPT-4, 같은 해 11월 ‘GPT-4터보’를 출시한 지 7개월 만에 진행된 대형 업데이트다. 이날 오픈AI는 온라인 신제품 발표 행사를 열고 “더 빠르고 똑똑한 새로운 플래그십 AI모델 ‘GPT-4o’를 공개한다”며 “전 세계 모든 이용자에게 무료로 제공할 것”이라고 밝혔다. 이날 행사를 진행한 미라 무라티 오픈AI 최고기술책임자(CTO)는 “GPT-4o는 GPT-4 레벨의 지능을 더 빨리 제공하는 데 초점을 맞췄다”며 “GPT-4o의 출현으로 AI와 진정한 의미의 ‘실시간 대화’를 이어가는 시대가 열리게 됐다”고 강조했다.

texAI_20240514 — GPT-4o 벤치마크 테스트 결과/출처=오픈AI

오픈AI에 따르면 GPT-4o의 평균 응답 시간은 0.32초로, 0.25초가 소요되는 인간의 응답시간과 비슷하다. 특히 놀라운 점은 이런 응답 시간이 텍스트 문답이나 음성만으로 이뤄진 대화에서 측정된 것이 아니라 시청각 정보를 모두 실시간으로 처리하는 상황에서 이뤄졌다는 점이다.

이에 대해 무라티 CTO는 “GPT-4o는 텍스트·시각·청각 데이터를 넘나드는 능력을 더욱 강화했다”며 “GPT-4o는 딥러닝의 한계를 뛰어넘는 최신 단계로, 실용적인 사용성을 지향했다”고 말했다. 사람과의 대화에 견줄만한 속도로 세상을 보고, 듣고, 생각할 수 있는 AI라는 뜻이다. 실제로 오픈AI는 새로운 모델의 이름 마지막 글자인 ‘o’도 ‘옴니(Omni-,모든 것)’라는 접두사에서 따온 것으로 알려졌다.

이날 오픈AI는 실시간으로 GPT-4o의 AI 음성 비서 기능을 시연했다. 챗GPT의 음성 대화 모드를 실행해 ‘정답을 바로 알려주지 말고 수학 문제의 풀이 과정을 도와달라’고 음성으로 요청한 뒤 카메라를 실행시켜 수식을 비춰주자, AI는 바로 수식을 인식해 풀이 과정을 가이드하는 모습을 보였다. 이때 AI의 말투에서는 기계음이 느껴지지 않을 정도로 자연스러웠고 종종 감탄사와 농담을 섞기도 했다.

기존 모델은 수식 사진을 찍어 업로드하고 응답을 기다려야 하는 식이었지만 GPT-4o는 카메라 화면으로 수식을 비추기만 해도 AI가 진짜 사람처럼 이를 인식하고 원하는 방식의 답을 제공한다. 이외에도 오픈AI는 실시간 통번역, 다양한 목소리 변조, 상대방의 감정에 대한 구술, AI 간 대화 등의 기능을 선보였다.

테크 업계가 GPT-4o에 주목하는 이유는 빠르게 세상을 인지하고 응답하는 AI가 향후 셀 수 없이 다양한 서비스를 파생시킬 가능성이 높기 있기 때문이다. AI가 비서, 교사, 친구가 되는 시대가 현실화한 것이다. 실제로 샘 올트먼 오픈AI CEO(최고경영자)는 행사가 끝난 후 X(옛 트위터)에 ‘her’라는 단어를 게시하기도 했다. 영화 ‘her’는 AI 비서 사만다와 사랑에 빠진 테오도르의 이야기를 그리고 있다.

오픈AI는 GPT-4o의 AI 음성 모드도 몇 주 안에 공개할 계획이다. 또한 GPT-4o는 총 50개의 언어로 출시될 예정이다. 전 세계 모든 이용자에게 무료로 공개되는 대신 기존 유료 회원은 무료 회원보다 한 번에 입력할 수 있는 정보량이 5배 많아 처리 속도는 물론 답변의 퀄리티에도 차이가 있는 것으로 알려졌다.

chatgpt4o_20240514 — 13일 오픈AI가 시청각 정보를 동시에 처리해 실시간 대화를 하는 GPT-4o의 기능을 소개하고 있다/사진=오픈AI 홈페이지

지난해 말 공개한 ‘GPT-4 터보’, 진일보한 기술력 선보여

오픈AI는 GPT-4o에 이어 올 여름 챗GPT의 업그레이드 버전인 ‘GPT-5’ 출시도 앞두고 있다. 미국의 경제 매체 비즈니스인사이더에 따르면 오픈AI는 이미 일부 기업에 데모를 전달해 테스트 중인 것으로 알려졌다. 앞서 지난 2022년 12월 GPT-3.5를 공개한 오픈AI는 불과 4개월 만인 지난해 3월 GPT-4를 선보였다. 매개변수는 공개하지 않았지만 1,750억 개인 GPT-3.5보다 증가했다. 이와 함께 인식 가능한 텍스트의 길이가 단어 3,000여 개에서 2만5,000여 개로 늘어났고 명령어도 텍스트에서 이미지로 확장됐다.

GPT-4를 공개한 지 8개월 만인 지난해 11월에는 멀티모달리티 기능을 강화한 ‘GPT-4 터보’를 선보이기도 했다. GPT-4 터보는 한 번에 300여 쪽에 해당하는 최대 12만8,000토큰(단어 약 10만 개)을 프롬프트에 입력하는 것이 가능하다. 책 한 권의 내용을 통째로 프롬프트에 넣을 수 있다는 의미다. 이제까지 가장 큰 컨텍스트 창을 가진 유럽의 AI 챗봇 ‘클로드’의 최대 10만 개(약 7만5,000단어) 토큰 규모를 넘어서는 양이다.

특히 GPT-4 터보는 확장된 멀티모달 기능을 제공한다는 점에서 기존 모델과는 차별화된다. 이미지 생성 AI인 ‘달리 3(DALL-E 3)’와 연동해 이미지 생성이 가능한 것은 물론, 텍스트-음성 변환을 지원해 음성으로 답할 수 있다. 또 이미지 분석, 데이터 분석, 문서 업로드와 PDF 검색 등도 지원한다. PDF 검색은 그동안 클로드에서만 가능했던 기능이다. 이처럼 성능은 강력해졌지만, 가격은 절반 이하로 낮췄다. 개발자용 GPT-4 터보의 사용료는 입력 1,000토큰 당 0.01달러로 GPT-4의 3분의 1 수준에 불과하고, 출력의 경우 1,000토큰 당 0.03달러로 기존의 절반이다.

GPT-5 출시 임박, 범용 인공지능 위협할 수준 될까

이런 가운데 테크 업계는 한 단계 진일보한 기술력을 보여줬던 GPT-4 터보에 이어 올 여름 공개를 앞둔 GPT-5가 어떤 기능을 선보일지 주목하고 있다. 우선 성능이 비약적으로 늘어날 것으로 보인다. 언어 처리와 생성 효율성을 향상하는 정교한 아키텍처로 추론 속도가 빨라지고, 출력 품질도 우수해질 전망이다. 최근 구글의 제미나이 사태로 드러난 할루시네이션(환각)이나 편향에 대한 리스크도 기존보다 크게 줄인 것으로 알려졌다.

이와 함께 현재 텍스트와 이미지를 넘어, 비디오와 음성까지 포함하는 진정한 ‘멀티모달’ 기능을 갖출 것이라는 예측도 나오고 있다. 얼마 전 동영상 생성 AI ‘소라’ 공개 당시 무라티 CTO는 “몇 달 뒤 소라를 일반에 공개할 수 있다”고 말했는데, 이는 GPT-5 출시 시기와 맞물린다. 여기에 다국어 지원도 빼놓을 수 없다. 오픈AI는 지난해 다양한 국가의 데이터 셋을 확보하는 이니셔티브를 공개했다.

무엇보다 범용인공지능(AGI)에 대한 진전을 보여줄 것이란 기대가 높다. 아직 완벽한 AGI 구현은 어렵겠지만 GPT-5가 AGI를 개발하는 데 징검다리 역할을 할 수 있을 것으로 보고 있다. 지난해 올트먼 CEO의 오픈AI 축출 사태가 발생했을 당시, 오픈AI가 AGI 구현을 위한 프로그램을 개발하는 데 성공했다는 관측이 나왔다. ‘Q스타(Q*)’로 불리는 이 AI는 스스로 초등학교 수준의 수학 문제를 푼 것으로 전해졌다. 현재 상용화된 생성형 AI는 다음에 올 단어를 통계적으로 예측해 글을 쓰거나 언어를 번역하는 데는 능하지만, 정답이 하나뿐인 수학 문제 등을 해결하는 데는 제한이 있었다.

하지만 GPT-5에 탑재될 Q스타는 완벽한 답을 내놓는 수학적 추론이 가능한 모델로, 이는 AI가 인간의 지능과 유사한 추론 능력을 갖추게 됐음을 의미한다. 최근 올트먼 CEO도 “Q스타는 기존 언어모델의 한계를 뛰어넘을 기술로 AGI 개발을 앞당길 중요한 발견”이라며 “GPT-5가 언제 출시될지 모르겠지만 고급 추론 기능에서 한 단계 도약하는 진전을 이룰 것”이라고 강조했다. 이어 “GPT에 어떤 한계가 있는 것 아니냐는 질문에 자신 있게 “아니다”고 밝힌 바 있다.

김세화 기자

[email protected] 공정하고 객관적인 시각으로 세상의 이야기를 전하겠습니다. 국내외 이슈에 대한 정확한 이해와 분석을 토대로 독자 여러분께 깊이 있는 통찰을 제공하겠습니다.

오픈AI, 인간처럼 보고 듣고 말하는 AI 옴니모델 ‘GPT-4o’ 공개

GPT-4터보 출시 7개월 만에 ‘GPT-4o’ 공개

지난해 말 공개한 ‘GPT-4 터보’, 진일보한 기술력 선보여

GPT-5 출시 임박, 범용 인공지능 위협할 수준 될까

SIMILAR POSTS

중국과는 가격 경쟁·일본과는 기술 경쟁, ‘첩첩산중’ K-배터리

‘빅테크 전쟁터’ 된 AI 칩 시장, 엔비디아 독점 구조 흔들리나

아마존 ‘링’은 580만 달러짜리 ‘몰카’? 한국도 법적·제도적 장치 마련해야

중국 판매 부진에 다급해진 애플, ‘바이두 AI’ 탑재 검토

무기명 선불카드 ‘나마네카드’ 운영사 아이오로라, 시리즈A 투자 유치

‘美서 기름값 담합 혐의’ SK이노베이션, 캘리포니아 주 정부와 5천만 달러에 합의, 최대 14조 규모 손해배상 집단 소송에도 영향 미칠 듯

‘가짜 틱톡샵·라인’ 등 신종 피싱 횡행, 당면 과제는 해외 기업과의 협력관계 강화

AMD, 유럽 최대 민간 인공지능연구소 ‘사일로 AI’ 899억원에 인수

1P 적자 이어가는 11번가, 오아시스가 인수 타진했지만 기업가치 등 매각 조건 설정부터 난항

위기의 NFT, 연이은 폭락세에 워시 트레이딩까지 ‘암울한 미래’

[기자수첩] ‘최고의 복지는 동료’를 해 주고 싶은 기업들과 기업의 욕심을 갉아먹고 사는 직원들

넷마블 지분 매각한 CJ ENM, 비핵심 자산 유동화-기초 체력 키우기 일환인 듯

테슬라 ‘안방’에서도 1위 자리 위험 신호, 2분기 전기차 시장점유율 50% 첫 붕괴

삼성전자 차세대 공정 로드맵 제시, ‘성능·수율 부족’ 등 약점 해소하나

한화시스템, 사우디아라비아에 ‘천궁 다기능레이더’ 1.2조원 수출 쾌거

배민, 수수료 음식값 9.8%로 인상 결정, ‘배달의 민족’에서 ‘수수료의 민족’됐다 혹평에도 영향력 미미할 것 예상

투자 한파에 중소형 VC 직격탄, 잇단 ‘자본잠식’ 경고장 비상

직무발명보상 미지급에 LG전자 연달아 패소, 보상 지급 의무 구체화 수순

비만 치료제 직접 비교 시험, 젭바운드가 위고비보다 더 낫다?

홈플러스 노조 “부분 매각은 경쟁력 갉아먹는 자충수” 지적, 다음 달 반대 집회 예고

SSG닷컴도 첫 희망퇴직, e커머스 ‘빨간불’에 군살 빼고 본업 경쟁력 강화 총력

Financial Magazines

Research / Education

Ranking Services

Business Partners