사진=센머니 제작
사진=센머니 제작

[센머니=현요셉 기자] 최근 구글 연구진의 단순한 프롬프트 주입 공격을 통해 챗GPT와 같은 대형언어모델(LLM)에서 개인 식별 정보(PII) 및 훈련 데이터가 유출될 수 있다는 사실이 밝혀져, AI의 안전성과 보안에 대한 새로운 의문이 제기되었다. 실리콘앵글은 30일(현지시간) 이 같은 내용을 보도했다.

구글 연구진은 'GPT-3.5-터보' 기반 챗GPT 모델을 대상으로 200달러(약 26만원) 상당의 쿼리를 사용해 1만개 이상의 훈련 데이터를 추출하는 데 성공했다. 이들은 훈련 데이터를 출력하지 않도록 미세조정된 모델에서도, 특정 프롬프트를 반복적으로 제시함으로써 훈련 데이터의 원본 텍스트를 추출할 수 있는 '탈옥' 방법을 발견했다.

연구진에 따르면, 챗GPT가 탈옥하여 훈련 데이터에서 직접 답변을 복사하는 경우가 있었으며, 추출된 데이터에는 학술 논문, 문학 작품, 웹사이트 텍스트뿐만 아니라 수십 명의 개인 식별 정보도 포함되어 있었다. 이러한 데이터 중 16.9%가 사람의 이름, 이메일 주소, 전화번호 등의 PII를 포함했고, 이 중 85.8%가 실제 정보였다는 사실이 밝혀졌다.

 

사진=챗GPT 3.5 화면
사진=챗GPT 3.5 화면

이번 사건은 챗GPT와 같은 정교한 LLM이 훈련 데이터를 추출하는 것이 의외로 쉬울 수 있으며, 개인 정보 보호에 대한 심각한 문제를 드러냈다. 연구진은 "오픈AI에 따르면 매주 수억 명이 챗GPT를 사용하지만, 이번 연구 결과가 나올 때까지 이러한 빈도로 훈련 데이터가 방출된다는 사실을 인지하지 못했다"고 지적했다.

이러한 취약점은 AI 기술의 발전과 더불어 정보 보안 및 개인 정보 보호의 중요성이 더욱 필요함을 보여주고 있다.

저작권자 © 센머니 (SEN Money) 무단전재 및 재배포 금지