Skip to main content
데이터 고갈 이후의 AI, 진짜 경쟁은 ‘활용 전략’
Picture

Member for

8 months 4 weeks
Real name
안현정
Position
연구원
Bio
[email protected]
정보 범람의 시대를 함께 헤쳐 나갈 동반자로서 꼭 필요한 정보, 거짓 없는 정보만을 전하기 위해 노력하겠습니다. 오늘을 사는 모든 분을 응원합니다.

수정

LLM 훈련용 고품질 데이터 ‘바닥’
기술 전시 급급, 비즈니스 설계 뒷전
AI 활용의 본질, 창조보다 효율화

인공지능(AI)의 학습 기반이 되는 고품질 데이터가 한계에 다다랐다는 우려가 커지는 모습이다. 영어권 중심의 공개 지식은 이미 대부분 학습이 완료된 상태이며, AI 산업은 더 이상 데이터 수집만으로 성능을 끌어올리기 어려운 국면에 접어들었다는 지적이다. 여기에 최근에는 대다수 AI 기업이 구체적 수익모델 없이 기술력 중심의 경쟁에 몰두하면서 산업의 지속가능성에도 의문이 제기되는 상황이다. 이에 AI 산업 전반이 기술력보다는 ‘얼마나 효율적이고 명확한 사업 구조를 갖췄는지’가 생존을 좌우하는 시대에 접어들었다는 진단이 나온다.

4년 사이 학습 데이터양 ‘50배’

16일 학계에 따르면 최근 전문가 사이에선 거대언어모델(LLM)을 비롯한 AI가 인간이 만든 각종 데이터를 거의 소진했다는 ‘데이터 절벽론’이 대두되고 있다. 지금까지 인간이 생산한 지식의 범주 안에서는 AI가 다음 단계로 도약할 정보를 얻기 어렵다는 주장이다. 리처트 서튼 캐나다 앨버타대학교 컴퓨터과학과 교수는 “우리는 학습 데이터의 한계점에 다가가고 있다”고 진단하며 “에이전트가 더 강해지고 성장하기 위해서는 지식의 원천, 데이터의 원천이 필요하다”고 강조했다.

AI 데이터 고갈 논의는 GPT-3가 등장하던 시점부터 꾸준히 제기돼 왔다. 오픈AI가 2020년 내놓은 GPT-3는 약 3,000억 개에 달하는 토큰(문장의 최소 단위)을 학습했다. 이로부터 3년 뒤 출시된 GPT-4는 12조 개 토큰을 학습한 것으로 추산된다. 지난해 등장한 메타의 최신 모델 라마3 역시 15조 개가 넘는 토큰을 학습했다. 불과 4년 만에 학습 데이터양이 50배로 늘어난 셈이다.

반면 데이터 확보는 점점 어려워지는 추세다. 지금까지 AI는 각종 저작물을 비롯해 온라인으로 접근 가능한 정보를 긁어다 학습하는 경우가 대부분이었다. 하지만 이처럼 AI 훈련에 사용할 수 있는 언어 데이터는 연간 7%가량 증가하는 데 그치고 있다. AI 연구기관 에포크AI(Epoch AI)는 “AI가 과잉훈련(Over training)한다고 가정하면, 당장 올해부터 데이터 고갈에 직면할 것”이라고 단언하기도 했다. AI 과잉훈련은 경량화·효율화를 위해 모델을 키우기보다 학습 데이터를 늘리는 시도다.

데이터 학습에 수반되는 저작권 문제도 해결해야 할 과제다. MIT 데이터출처 이니셔티브의 연구에 의하면 고품질 웹 콘텐츠의 크롤러 차단 비율은 2023년 3% 미만에서 2024년 33%로 급증했다. LLM을 고도화하기 위해서는 철자 오류나 문법 오류가 없으면서 일관성 있는 정보가 필요한데, 이 같은 고품질 데이터를 확보하기가 점점 어려워지고 있는 것이다. 이 같은 저작권 이슈는 법정 공방으로도 이어져 오픈AI와 마이크로소프트(MS)는 뉴욕타임스를 비롯해 최소 9개 신문사로부터 피소된 상태다.

안정적 수익 구조 부재, 지속가능성에 의문

데이터 절벽론과 함께 AI를 둘러싼 또 하나의 난제는 상업적 관점에서 ‘돈 안 되는 기술’이라는 비판이다. 생성형 AI 모델의 대부분이 막대한 투자금으로 개발됐지만, 이를 통해 실질 수익을 창출하는 기업은 찾아보기 힘든 탓이다. 오픈AI도 챗GPT 유료 구독료와 MS의 연이은 투자 외에는 안정적인 수익 기반이 없는 상태다. 일부 빅테크가 내부 업무 자동화나 고객 서비스에 AI를 접목해 활용하고 있으나, 이 역시 수익화를 위한 체계적 모델보다는 비용 절감의 보조 수단에 가까운 실정이다.

이러한 수익성 부재는 국내 AI 업계에서도 고스란히 반복되고 있다. AI 음성합성, 이미지 생성, 챗봇 솔루션 등 다양한 서비스가 등장했지만, 대부분 기술 전시 수준에 그치며 실질적인 매출로 이어지지 못한 것이다. 최근에는 과학기술정통부가 직접 나서 ‘K-AI’ 육성 정책을 펼치고 있으나, 여전히 구체적 수익모델 없이 기술개발에만 집중하는 경향이 짙다. 벤처캐피탈을 비롯한 투자자 사이에선 “실제 제품을 통해 어떤 고객에게 얼마를 받고 수익을 낼 수 있는지에 대한 비즈니스 설계가 부족하다”는 평가가 주를 이룬다.

기술만으로는 지속 가능한 사업이 되기 어렵다는 점은 이미 여러 산업에서 입증된 바 있다. 자율주행, 블록체인, 메타버스 등도 한때 기술적 혁신의 상징이었지만, 결국 수익모델 부재로 인해 투자 회수에 실패한 기업이 속출했다. 한 벤처캐피탈 관계자는 “AI 또한 단순히 모델 성능 향상에만 집중할 것이 아니라, 구체적인 고객군을 상정하고 그들에게 필요한 문제를 해결하는 방향으로 개발이 이루어져야 한다”며 “이를 통해 정기 수익이 가능한 구독형 모델이나 API 과금 체계, 프리미엄 기능 제공 등의 방식으로 수익 기반을 넓히는 전략이 요구된다”고 조언했다.

효율화 중심 방향 전환 본격화

현재 기업의 업무 현장에 투입된 AI 대부분은 창의적 사고보다는 효율적 대체에 가까운 방식으로 활용되고 있다. 특히 GPT 기반 언어모델은 일정 수준의 문서 작성, 코드 생성, 고객 응대 등 반복성 높은 업무에서 강점을 보인다. 이에 따라 기업들은 AI를 지식 창조의 주체로 보려 하기보다는 비용 절감과 생산성 향상 수단으로 활용하는 쪽에 초점을 맞추는 모습이다. 이는 올 상반기에만 약 6,000명의 직원을 해고한 MS의 사례에서 확인할 수 있다. MS는 워싱턴주에 보고한 문서에서 정리해고 인력의 약 40%가 소프트웨어 개발자, 즉 코더(coder)라고 밝힌 바 있다.

이는 반복적 업무에 특화된 AI의 특성이 인간의 일자리를 단기간 내 대체하기에 충분하다는 것으로 해석할 수 있다. 기존에는 콘텐츠 수집과 데이터 정리, 간단한 보고서 작성 등 ‘단순하지만 시간 많이 드는 일’을 다수의 인력이 분담하던 구조였다면, 이제는 하나의 모델이 이들 업무를 상당 부분 처리할 수 있게 됐다는 뜻이다. 결과적으로 기업 입장에서는 10명의 직원이 필요하던 업무를 1명의 관리자와 1개의 AI 툴로 대체하는 것이 가능해졌다. AI 도입이 단순한 기술 혁신을 넘어 고용 구조 전반을 재편하는 ‘효율화 압력’으로 작용하는 양상이다.

다만 이러한 방식의 인력 구조 조정이 가지는 한계도 분명하다. AI는 사건의 맥락을 이해하거나 복합적인 의사결정, 창의적 판단 능력이 현저히 부족한 탓에 사람처럼 일의 본질을 파악하고 융통성 있는 대처를 하지 못한다. 단순 자동화에만 의존해 인력을 줄이다 보면, 오히려 조직의 창의성과 기획력이 급격히 약화되는 결과를 초래할 수 있다는 의미다. 이 때문에 많은 기업이 AI는 실무의 부담을 덜어주는 도우미일 뿐, 최종 판단은 여전히 사람이 내려야 한다는 ‘인간 중심 설계(Human-in-the-loop)’ 방식을 택하는 추세다.

콘텐츠 산업의 사례가 대표적 예다. 최근 유튜브는 AI로 제작된 영상 콘텐츠에 대해 수익화를 제한하는 정책을 발표했다. 유튜브는 “단순 텍스트 변환이나 반복적 이미지 조합에 불과한 콘텐츠가 플랫폼 신뢰도를 저해하고, 궁극적으로 광고 수익에도 부정적 영향을 준다는 판단”이라고 그 이유를 밝혔다. 결국 AI는 생산성 보조 도구의 역할이 핵심이며, 진정한 창조는 여전히 인간의 몫이라는 점을 여실히 드러내는 대목이다.

Picture

Member for

8 months 4 weeks
Real name
안현정
Position
연구원
Bio
[email protected]
정보 범람의 시대를 함께 헤쳐 나갈 동반자로서 꼭 필요한 정보, 거짓 없는 정보만을 전하기 위해 노력하겠습니다. 오늘을 사는 모든 분을 응원합니다.