Skip to main content
  • Home
  • 딥테크
  • [딥테크] AI가 수학 금메달 따도, 창의적 사고는 인간 몫
[딥테크] AI가 수학 금메달 따도, 창의적 사고는 인간 몫
Picture

Member for

2 months 1 week
Real name
송혜리
Position
연구원
Bio
다양한 주제에 대해 사실에 근거한 분석으로 균형 잡힌 시각을 제공하고자 합니다. 정확하고 신뢰할 수 있는 정보 전달에 책임을 다하겠습니다.

수정

국제 대회 성과와 새로운 문제 대응의 한계
결과 중심에서 과정·논리 중심 평가로 전환 필요
AI 보편화 시대, 혁신·설명·비판적 사고 역량 강조

본 기사는 The Economy 연구팀의 The Economy Research 기고를 번역한 기사입니다. 본 기고 시리즈는 글로벌 유수 연구 기관의 최근 연구 결과, 경제 분석, 정책 제안 등을 평범한 언어로 풀어내 일반 독자들에게 친근한 콘텐츠를 제공하는 데 목표를 두고 있습니다. 기고자의 해석과 논평이 추가된 만큼, 본 기사에 제시된 견해는 원문의 견해와 일치하지 않을 수도 있습니다.

2025년 7월, 구글 딥마인드(Google DeepMind)는 고급 추론 모드를 탑재한 제미니(Gemini) ‘딥싱크(Deep Think)’ 시스템이 국제수학올림피아드(IMO)에서 6문제 중 5문제를 풀어 42점 만점에 35점을 기록했다고 발표했다. 이는 대회 기준으로 금메달에 해당하는 성적이다. 단순한 기술적 성취를 넘어, 인공지능(AI)이 학계와 교육 현장에서 새로운 발상과 접근을 촉발할 수 있음을 보여준 사례다.

그러나 같은 해 AGI 검증용 벤치마크인 ARC-AGI(Abstract and Reasoning Corpus for Artificial General Intelligence)에서는 성과가 크게 달랐다. 최신 모델조차도 50% 안팎의 정확도에 머물렀고, 주최 측이 목표로 제시한 85%에는 한참 못 미쳤다.

이 두 결과는 모순되지 않는다. AI는 일정한 규칙과 전례에 따라 형식화할 수 있는 문제에서는 탁월한 성과를 내지만, 창의적 발상이나 추론적 도약이 요구되는 과제에서는 한계를 드러낸다. 더욱이 이미 학생의 90% 이상이 생산형 AI 도구를 사용한다고 답하는 현실에서, 교육정책의 관심사는 더 이상 ‘AI가 무엇을 할 수 있는가’에 머무르지 않는다. 이제는 규칙 기반 인공지능이 교실에 자리 잡은 상황에서 논리 교육을 어떻게 재설계할 것인가로 이동하고 있다.

사진=ChatGPT

문제 풀이에서 문제 만들기로

AI를 둘러싼 논쟁은 흔히 “기계가 생각하는가, 아닌가”라는 단순 구도로 전개된다. 그러나 교육에서 중요한 논점은 다르다. 오늘날 학생들이 사용하는 생성형 모델은 대규모 텍스트 데이터를 학습해 다음 단어를 얼마나 정확히 예측하는지를 기준으로 작동한다. 결과적으로 표현은 유창하지만, 새로운 개념 발명이나 논리적 도약은 어렵다.

수학 올림피아드에서 고득점을 기록한 사례도 정해진 형식과 규칙, 데이터 기반 탐색 덕분이라는 분석이 지배적이다. 이는 성과 자체는 사실이지만 작동 원리는 ‘훈련된 규칙 따라 하기’에 머문다는 의미다. 따라서 추론·증거·비판을 중시하는 교육 시스템이 이런 도구를 혁신의 주체로 삼을 수는 없다. 교육의 책무는 기존 해답집에 없는 문제를 스스로 만들고 논리적으로 방어할 수 있는 능력을 길러내는 데 있다.

실제 현장 변화는 이미 확인된다. 영국 대학생의 AI 활용률은 2024년 66%에서 2025년 90% 이상으로 증가했다. 이 중 약 20%는 AI가 작성한 글을 그대로 제출했다고 답했다. 표절 규정만으로는 대응하기 어렵다. 핵심 과제는 부정 방지가 아니라, AI 환경 속에서 설명과 증명의 문화를 지켜내는 것이다.

2024~2025년영국 학부생의 생성형 AI 도구 및 평가 활용 비율(단위: %)
주: 항목-학습에서 AI 도구 사용, 평가에서 생성형 AI 사용(X축), 비율(Y축)/2024년(진한 파랑), 2025년 (연한 파랑)

AI 성과의 두 얼굴

2024년 딥마인드는 국제수학올림피아드(IMO) 기하 문제를 형식화해 풀어내며 은메달 수준의 성과를 거뒀다. 과거 기하 문제 세트에서도 높은 성공률을 기록했다. 이듬해 업그레이드된 제미니는 대회 전반에서 금메달 수준의 결과를 냈다.

학계 반응은 엇갈렸다. 네이처(Nature)는 검증된 성능 향상을 강조했지만, 사이언티픽 아메리칸(Scientific American)은 회의적 입장을 내놨다. 종합하면, 문제가 일정한 구조로 표현될 때는 기계가 성과를 내지만, 창의적 도약이 필요할 때는 성능이 급격히 저하된다는 점이 확인됐다.

ARC-AGI는 새로운 문제 적응력을 평가하는 벤치마크다. 2024년 일부 성과 개선이 있었으나 목표치에는 크게 못 미쳤다. 연구자들은 모델이 익숙한 기술을 새로운 방식으로 조합해야 할 때 성능이 무너진다는 사실을 확인했고, 보완책으로 ‘시스템 2 사고(System 2 thinking)’가 제안되고 있다.

교육정책에 주는 메시지는 분명하다. 새로운 상황에 대응하는 일반화 능력은 여전히 취약하다. 정형화된 문제에서는 AI가 강력한 도구지만, 낯설고 창의적인 문제일수록 교사의 역할이 커진다.

2025년 4월 ARC-AGI 성능 평가(단위: %)
주: 항목- ARC-AGI-1 (준비 공개 평가), ARC-AGI-2 (난이도 높은 세트)(X축), 정확도(Y축)/o3-medium 정확도(진한 파랑), 우승 기준 정확도(연한 파랑)

평가의 무게, 결과보다 논리

AI가 널리 쓰이는 교실에서는 단순한 정답 맞히기가 더 이상 충분하지 않다. 학생이 어떤 사고 과정을 거쳤는지, 그 과정에서 어떤 판단을 했는지를 드러내는 평가가 필요하다.

첫째, 평가 구조를 바꿔야 한다. 결과가 아니라 추론 과정을 평가하는 과제가 필요하다. 포트폴리오, 구두 발표, 설계 노트 등 과정과 오류를 드러내는 형식이 효과적이다. 이는 유네스코와 OECD가 강조하는 인간 중심 역량, 설명 능력 강화와도 맞닿아 있다.

둘째, AI 활용 범위를 구분해야 한다. 아이디어 발상이나 자료 정리에는 AI 사용을 허용하되, 핵심 평가는 폐쇄 환경에서 진행해야 한다. 비공개 데이터 분석, 현장 작성 에세이, 칠판 발표 등이 해당된다. 일부 고등학교는 교사의 감독 아래 글쓰기를 실시하고, 대학은 구두시험을 시범 도입했다. 결론은 명확하다. 표준화된 작업은 기계가 돕고, 논리와 추론은 인간이 책임진다.

단속을 넘어 신뢰로

단속만으로는 AI가 일상이 된 교육 현장을 관리하기 어렵다. AI 감지 도구는 오류율이 낮다고 주장하지만, 미국 대학 신입생 규모로 환산하면 수십만 건의 정상적인 글이 잘못 표시될 수 있다. 교육 기술 업계는 이미 이런 문제를 지적해 왔고, 대학들은 2023년 이후 감지 도구에 대한 과도한 의존을 자제하라고 권고했다.

따라서 무결성 확보는 점수가 아니라 과정에서 이뤄져야 한다. 프롬프트 기록, 작성 이력, 출처 명시 등 작업 기록을 확인하고, 학생이 어떤 선택을 했는지, 왜 대안을 버렸는지, 실수에서 무엇을 학습했는지를 평가해야 한다. 감지 도구는 판결이 아니라 참고 신호로 활용돼야 한다.

2025년 영국 고등교육정책연구소(Higher Education Policy Institute, HEPI) 조사에서도 학생 다수는 AI를 이해나 요약을 돕는 도구로 사용한다고 답했다. 따라서 정책은 학생을 파트너로 대우하고, 허용 범위와 금지 영역을 명확히 하며, AI로 대체할 수 없는 과제를 부여해야 한다.

교사 역량과 제도 지원

이 변화를 현실화하려면 교사 역량 강화가 우선이다. OECD는 2024년 보고서에서 교사 수급 확대와 동시에 디지털 기술 역량 제고라는 이중 과제를 지적했다. 교사 연수는 AI 시대에 맞춰 과제 설계 중심으로 개편돼야 한다. 혁신성을 평가하는 기준을 조정하고, 대립적 채점 기준을 마련하며, 구두시험을 공정하게 운영하는 역량이 필요하다.

대학은 새로운 과제 은행을 공유하거나 문제를 주기적으로 교체해 데이터 유출을 막을 수 있다. 자원이 부족하다면 소규모부터 시작하면 된다. 과목별 증거 기반 과제 한 차례, 학기당 구두 점검 한 번, 학급 발표회 정도만으로도 충분하다. 핵심은 기술적 장치가 아니라 교육 문화다. 설명은 학습의 핵심 수단이며, 이를 중시하는 공감대가 필요하다.

혁신을 학습 목표로

현재 상황은 상반된 현실을 보여준다. 국제수학올림피아드에서는 금메달 성적을 기록하지만, 새로운 문제 해결 시험에서는 성과가 미흡하다. 인공지능은 강력한 도구이지만 여전히 혁신을 스스로 만들어내지 못한다.

따라서 교육의 방향은 분명하다. 혁신을 학습 목표의 중심에 두어야 한다. 학생들은 질문을 제기하고, 주장을 논리적으로 방어하며, 근거에 따라 태도를 바꿀 수 있는 역량을 길러야 한다. 평가 역시 설명과 과정, 증명 문화를 강화하도록 재설계돼야 한다.

정형화된 과제에서는 인공지능의 도움을 활용할 수 있다. 그러나 논증·설명·비판적 사고는 인간이 책임져야 한다. 중요한 것은 인공지능과 경쟁하는 것이 아니라, 주어진 틀을 넘어 새로운 문제를 정의하고 해결하는 힘을 학생들에게 길러주는 일이다.

본 연구 기사의 원문은 Pattern machines in logical order: Why the "victories" of the Artificial Intelligence Olympiad must reshape, not replace, reasoning | The Economy를 참고해 주시기 바랍니다. 2차 저작물의 저작권은 The Economy Research를 운영 중인 The Gordon Institute of Artificial Intelligence에 있습니다.

Picture

Member for

2 months 1 week
Real name
송혜리
Position
연구원
Bio
다양한 주제에 대해 사실에 근거한 분석으로 균형 잡힌 시각을 제공하고자 합니다. 정확하고 신뢰할 수 있는 정보 전달에 책임을 다하겠습니다.