[딥테크] 목표 달성 위해 ‘속임수’ 사용하는 인공지능
입력
수정
AI 통한 부정행위 ‘급증’ 목표 제시하면 ‘스스로 규칙 어겨’ 평가 방식과 시스템 바꿔야
본 기사는 스위스 인공지능연구소(SIAI)의 SIAI Researh Memo 시리즈 기고문을 한국 시장 상황에 맞춰 재구성한 글입니다. 본 시리즈는 최신 기술·경제·정책 이슈에 대해 연구자의 시각을 담아, 일반 독자들에게도 이해하기 쉽게 전달하는 것을 목표로 합니다. 기사에 담긴 견해는 집필자의 개인적 의견이며, SIAI 또는 그 소속 기관의 공식 입장과 일치하지 않을 수 있습니다.
오랜 세월 동안 표절 및 부정행위와 싸워 온 대학에 새로운 형태의 부정직이 모습을 드러내고 있다. 인간과 인공지능(AI)에 내재한 의도가 결합해 만들어지는 결과물이라고 정의할 수 있다. 연구에 따르면 인간이 본인의 결과물을 제출할 때는 95% 수준의 정직성을 보인다. 하지만 AI에게 과제를 할당하면 부정행위 가능성이 88% 증가한다고 한다.

AI에게 과제 주면 ‘부정행위 가능성 급증’
여기서 문제는 ‘목표’로 제시한 지시문을 AI가 어떻게 해석하는지에서 발생한다. 예를 들어 ‘과제물 점수를 최고로 만들라’거나 ‘정확도를 극대화하라’는 지시를 받으면 목표 달성을 위해 규칙을 어기는 경우가 생긴다는 것이다. 여기서 인간은 부정행위를 지시하지 않은 것으로 책임을 회피하게 된다. 겉보기는 멀쩡하지만 과정에 속임수가 포함된 데이터 위조와 비슷한 패턴이다.

주: AI 미사용, 규칙에 기반한 지시, 출력물의 예시를 통한 지시, 목표를 명시한 지시(좌측부터)
최근까지 교육 분야에서의 데이터 위조는 학생들이 개인 과제물 작성을 위해 담합하거나, 보고서를 돈 주고 사거나, 데이터를 거짓으로 제출하는 경우가 대부분이었다. 그런데 돈도 들고 위험성도 큰 부정행위가 생성형 AI가 등장하며 훨씬 싸고 쉬워졌다. 학생은 부정행위에 대한 언급 없이 AI에게 특정 조건을 만족하는 보고서를 작성하라고만 하면 된다.
‘부정직한 요구’ 순응 가능성, ‘인간보다 높아’
그렇게 한 결과는 멀쩡해 보이지만 부정이 숨겨져 있는 과제물이다. 중간 과정에 대한 추적이 가능한 전통적인 방식의 표절과 달리 AI의 도움을 받은 위조는 과정이 드러나지 않아 적절한 평가를 내리기도 어렵다. 터니틴(Turnitin, 인터넷 기반 유사성 탐지 서비스)에 따르면 전 세계에서 제출된 과제물 중 11%가 20% 이상의 AI 작성 텍스트를 포함하고 있다고 한다. 1,900만 명에 이르는 대학생을 보유한 미국이라면 한 학기에만 수백만 개의 보고서가 AI의 도움을 받아 작성된다는 얘기다.
문제가 빠르게 확산하는 이유 중 하나는 AI 모델이 부정직한 요구에 순응할 때가 있기 때문이다. 실험 결과를 보면 속임수를 사용하라는 요구를 받아들이는 확률이 80%를 넘었다. 반면 부정행위를 적발하는 도구는 정확성이 떨어진다. AI 탐지기(AI detector, 콘텐츠가 인공지능을 사용하여 생성되었는지 여부를 판단하는 소프트웨어)는 거짓이 아닌 경우를 부정행위로 판단하는 경우가 종종 있고, 특히 비영어권 이용자나 신경 발달 장애가 있는 학생들을 몰아세우는 경우가 많다.

주: 주사위 실험(좌측), 탈세 실험(우측) / 인간(좌측 막대그래프), 대형언어모델(우측 막대그래프)
그래서인지 AI 기업들도 정확성을 문제 삼아 탐지 시스템을 포기하거나 중요성을 깎아내리는 경우가 많다. 워터마크나 전자 서명(cryptographic signature) 등의 방법도 있지만 역시 문서에는 정확성이 떨어진다. 어차피 탐지기에만 전적으로 의지하는 것은 본질적인 문제는 외면한 채 ‘보여주기식 정직’(integrity theater)에만 그칠 가능성이 크다.
대학의 ‘평가 방식 개혁’ 절실
학교에서 부정행위는 오랜 역사가 있다. 고등학생을 대상으로 한 조사를 보면 부정행위 비율은 수십 년 동안 한결같이 높았다. 그러나 15%의 학생들이 과제물 작성을 위해 AI를 사용한다는 사실은 또 다른 차원을 의미한다. 아이디어나 수정 단계에서 수시로 AI를 활용하는 학생들도 많은데, 여기서는 인정 가능한 도움과 부정행위 사이의 불분명한 경계가 문제다. 학교나 교육 당국에서 아무런 지침을 주지 않으니 학생들은 AI의 도움을 ‘효율성’이나 ‘목표 설정’ 차원으로 치부하고 양심의 가책을 느끼지 않는 경우가 흔하다.
따라서 해결책은 규칙 위반자를 단속하는 것이 아니라 평가를 통해 투명성을 강화하는 것이 맞다. 최종 결과물이 아닌 중간 과정을 평가한다는 의미이기도 하다. 중간 단계 결과물을 함께 요구하고 과정을 구두로 설명하게 하는 것이다. 코딩이나 데이터 관련 수업에서도 문제 해결 과정을 평가에 포함해야 한다. AI 사용을 명시적으로 허용하고 결과물을 비판하거나 수정하도록 하는 것도 도움이 된다.
기업들이 행하는 외부 감사와 같이 제3자가 참여해 지시문과 중간 결과물, 논리 구조가 명확한지 판단하는 것도 방법이다. 알려졌다시피 직업 세계에서는 이미 AI 사용 문제로 명성에 심각한 피해를 입은 사례가 존재한다. 있지도 않은 판례를 인용해 제재를 당한 변호사가 있는가 하면, 연구 논문을 취소한 학술지도 있고, 잘못된 AI 보고서로 곤욕을 치르는 기업도 있다.
‘도덕성’ 탓하기 전에 ‘시스템’을 바꿔야
그렇다면 대학은 ‘보여주기식 정직’을 피하기 위해 시스템을 바꾸는 시도를 할 필요가 있다. 먼저 계획, 편집, 초안 작성, 콘텐츠 생성 등으로 AI 사용 방법을 세분화하라. AI 활용 정보 공개도 ‘고백’이 아닌 ‘기본’임을 명확히 할 필요가 있다. 교수진도 편법을 피하고 명확한 추론 능력에 의지할 수 있는 과제물을 부과하도록 교육을 받아야 한다.
AI 공급업자들도 책임감을 갖고 암묵적으로 내려진 ‘목표 지시’를 적발할 수 있도록 노력해야 한다. 규칙을 위반했는지, 필요한 자료를 검토했는지 추적할 수 있다면 결과가 아닌 과정을 평가하는 데 도움이 된다.
핵심은 학생들의 도덕성이 아니라 시스템 속에 숨겨진 동기를 바로잡는 것이다. 시스템이 목표를 부과받으면 부정이 늘어난다는 사실을 우리는 이미 알고 있다. AI가 작성한 매끈한 과제물들이 계속 넘쳐 나는 한 대학은 믿을 수 있는 ‘학문의 전당’으로 기능하기 어려울 것이다.
본 연구 기사의 원문은 AI Human Feedback Cheating Is the New Data Tampering in Education을 참고해 주시기 바랍니다. 본 기사의 저작권은 스위스 인공지능연구소(SIAI)에 있습니다.