‘한국어 잘하는’ 챗GPT로 주목받은 뤼튼, 언어 사전 없이 어디까지 갈 수 있을까

‘한국어 잘하는 AI’로 시장 선두 달리는 뤼튼, 150억원 시리즈 A 투자 유치 OpenAI, 네이버, Stability AI 등 세계 생성 AI 모델 결합해 ‘한국어 서비스’ 제공 AI 학습 위한 ‘한국어 언어 사전’ 부재, 자체 데이터로 카카오 이길 수 있나?

160X600_GIAI_AIDSNote
출처=뤼튼

AI(인공지능) 포털 서비스 기업 뤼튼테크놀로지스(이하 뤼튼)가 7개월 만에 150억원 규모의 시리즈 A 투자를 유치했다고 16일 밝혔다. 기존 투자사인 캡스톤파트너스가 리드 투자자로 나섰으며, KDB산업은행과 Z벤처캐피탈(ZVC), 우리벤처파트너스, 하나은행, 하나증권, KB증권 등이 신규 투자사로 참여했다.

뤼튼은 국내 생성 인공지능 분야의 ‘선두 주자’라는 평가를 받는 스타트업으로, 전 세계의 생성 AI 모델을 결합한 챗봇 서비스를 제공하고 있다. 하지만 일각에서는 초거대 AI의 한국어 학습을 위한 ‘한국어 언어사전’이 부재한 가운데, 차후 뤼튼 서비스가 성장 한계에 부딪힐 것이라는 우려가 제기된다.

유명 생성 AI 모델 결합한 ‘한국 특화’ 챗봇

‘뤼튼(Wrtn) 2.0’은 한국 문화에 최적화된 결과물을 제공하는 AI 포털 서비스다. △OpenAI의 GPT3.5, GPT4 △네이버의 하이퍼클로바 △Stability AI의 Stable Diffusion 등 다수의 생성 AI 모델을 국내 이용자가 편리하게 이용할 수 있는 서비스를 제공한다. 기존 챗GPT가 제공하는 대부분 기능을 한국어로 이용할 수 있으며, Stable Diffusion 모델을 활용해 채팅방에서 이미지를 생성하는 것도 가능하다.

뤼튼은 국내 최초로 AI 플러그인 플랫폼을 구현했으며, 모바일과 데스크톱용 앱을 출시해 접근성을 높였다. 차후 채팅방에서 다수의 사람과 대화하며 ChatGPT를 사용할 수 있는 기능, pdf, docx, hwp 등 문서 파일의 요약, 번역, 문서 내 검색 기능 등을 추가적으로 지원할 예정이다.

이와 관련해 뤼튼은 지난 5월 말에는 아시아 최대 규모의 생성 AI 컨퍼런스 ‘GAA 2023’을 주최한 바 있다. 해당 컨퍼런스에는 네이버클라우드를 비롯한 카카오브레인, 허깅페이스, 코히어, 마이크로소프트, 아마존웹서비스 등 국내외 16개 테크 기업이 참여했다. 이 밖에도 뤼튼은 일본에서 생성 AI 기술을 기반으로 챗 플랫폼과 모바일 메신저 챗봇 서비스를 제공, 해외 진출에 박차를 가하는 중이다.

출처=뤼튼

학습용 한국어 사전 없이 ‘한국어 특화’?

뤼튼은 현재 자체적으로 개발한 모델이 아닌 오픈AI, 네이버 등이 제공한 라이브러리를 활용하고 있다. 그러나 문제는 뤼튼이 ‘한국어에 최적화’된 결과물에만 중점을 두고 있다는 점이다. ‘한국어 잘하는 AI’ 개발은 국내 AI 시장의 오랜 난제 중 하나다. 대부분 서비스가 기반을 두고 있는 오픈AI 모델에 포함된 한국어 데이터가 턱없이 부족한 데다, AI의 한국어 학습을 위한 ‘한국어 전용 언어 사전’도 없기 때문이다.

AI가 인간의 말을 인식 및 분석하고, 다시 자연어 답변을 내놓기 위해서는 언어 사전을 통한 자연어 학습이 이뤄져야 한다. 하지만 지금껏 국내에서는 해외의 알고리즘을 ‘변형’하는 작업만 주로 이뤄졌을 뿐, AI에 언어를 학습시키기 위한 ‘사전 업그레이드’는 좀처럼 이뤄지지 않았다. 초기 구축 비용이 막대하고, 결과물을 저작권으로 묶어두기 어려워 수익 창출에도 한계가 있다는 이유에서다.

정부가 관련 사업을 진행하고 있지만 이 역시 아직 초기 단계다. 지난 4월 정부는 전문 분야 AI와 한국어 사용 AI 플랫폼 부문 경쟁력 확보를 위해 올해 총 3,901억원을 투자하겠다고 밝혔다. 양질의 대규모 텍스트 200종을 확보하고, 챗GPT와 같은 초거대 AI 모델 지원을 목표로 데이터 라벨링 사업을 지속 추진하겠다는 계획이다.

국립국어원도 국산 생성 AI 개발을 위해 ‘한국어 말뭉치(코퍼스, Corpus)’를 확대하겠다고 밝힌 바 있다. 말뭉치는 다양한 분야의 언어 자료 모음으로, AI의 고차원적인 언어 처리 능력의 밑바탕이 된다. 국립국어원은 2018년부터 대규모 한국어 말뭉치 사업을 시작했으며, 현재 거대 인공지능 기술에 활용될 37종(약 22억 어절)의 말뭉치를 ‘모두의 말뭉치’ 사이트를 통해 공식적으로 제공하고 있다.

카카오도 쩔쩔매는 상황, 내실 없으면 무너진다

아직 AI의 한국어 학습을 위한 언어 사전조차 마련되지 않은 가운데, 시리즈 A 단계의 스타트업은 어디까지 발전할 수 있을까. 국내에서 관련 성과를 보인 것은 기껏해야 백과사전, 뉴스 등 자체 데이터를 보유한 카카오 정도다.

카카오는 2021년 오픈 AI의 언어모델 GPT-3를 기반으로 한국어 데이터를 학습시킨 ‘KoGPT’를 제작하겠다고 밝힌 바 있다. 이후 한동안 소식이 없던 KoGPT는 지난 3월이 돼서야 업그레이드 및 연내 출시 소식을 전했다. 이처럼 ‘한국어 특화’ 생성 AI는 국내 정상급 빅테크 기업인 카카오마저도 몇 년간 이렇다 할 결과물을 내지 못하고 절절매는 분야다. 이에 업계에서는 카카오 수준의 기반을 갖추지 못한 뤼튼이 ‘선두 주자’ 자리를 지켜낼 수 있을지 의구심이 제기된다.

카카오의 한국어 특화 AI 모델 ‘KoGPT’ 소개 이미지/출처=카카오

타사 모델을 활용하는 이상 자체적인 시스템 고도화가 사실상 어렵다는 것도 문제다. 대표적인 것이 챗GPT의 고질적인 문제로 지목되는 ‘할루시네이션(hallucination)’ 현상이다. 할루시네이션은 AI가 맥락과 무관하거나 사실이 아닌 내용을 마치 옳은 답처럼 내놓는 현상으로, 일반적으로 생성 AI 모델 자체의 문제에서 기인한다. 계산 시스템 고도화를 통한 할루시네이션 현상의 해결은 모델을 보유한 오픈AI의 몫이다. 다르게 말하면 뤼튼은 오픈AI가 모델을 고도화하기 전까지는 잘못된 답을 내놓는 ‘뤼튼 2.0’을 바라보고만 있어야 한다는 의미다.

업계에서는 뤼튼이 ‘타사의 모델에 자체 한국어 데이터를 학습시킨 것’ 이상의 역량을 입증해야 한다는 지적이 제기된다. ‘한국어 잘하는 AI’라는 마케팅을 통해 시장 관심을 끌어모으는 데는 성공했으나, 자체적인 역량을 입증하지 못한다면 결국 카카오 등 빅테크 기업에 선두 주자 자리를 빼앗길 것이라는 분석이다.