공개 데이터 학습 시 개인 식별정보 제거 노력
이용자 입력 데이터 이용 관련 안내 강화
고학수 개인정보보호위원회 위원장이 27일 오후 서울 종로구 정부서울청사에서 열린 제6차 전체 회의에 참석해 회의 논의 내용을 설명하고 있다. [연합] |
[헤럴드경제=권제인 기자] 주요 빅테크 기업들의 인공지능(AI) 학습 데이터에 주민번호, 신용카드 번호 등의 개인정보가 제대로 제거되지 않은 것으로 나타났다. AI 데이터를 검토하는 과정에서 사람이 투입돼 민감한 정보가 노출될 우려가 있지만, 이용자들에게 이를 제대로 고지하지 않고 있다는 문제도 드러났다.
이에 개인정보위원회는 네이버, 뤼튼, 오픈AI, 구글, 마이크로소프트(MS), 메타 등 6개 사업자에 대해 대규모언어모델(LLM) 학습 시 인적 검토 사실을 분명하게 알리고 개인정보 침해를 최소화하라고 개선권고했다.
27일 개인정보위는 제6회 전체회의를 열고 LLM을 개발·배포하거나 이를 기반으로 인공지능(AI) 서비스를 제공하는 사업자에 대해 개인정보 보호의 취약점을 보완하도록 개선권고를 의결했다. 개인정보위는 지난해 11월부터 한국인터넷진흥원과 함께 주요 AI 서비스를 대상으로 사전 실태점검을 진행한 바 있다.
개인정보위는 AI 단계별 개인정보 보호의 취약점 점검 결과 미흡 사항이 발견됐다고 밝혔다. 구체적으로 ▷공개된 데이터에 포함된 개인정보 처리 ▷이용자 입력 데이터 등의 처리 ▷개인정보 침해 예방·대응 조치 및 투명성과 관련해 미흡 사항이 발견됐다.
AI 서비스 제공사업자가 인터넷에 공개된 데이터를 수집해 AI 모델 학습 데이터로 사용하는 과정에서 주민등록번호, 신용카드번호 등 중요한 개인정보가 포함된 것으로 나타났다. 개인정보위에 따르면 지난해 기준 2만999개 페이지에서 주민번호와 여권번호 등 개인정보 노출이 탐지됐다.
개인정보위는 AI 서비스 제공 단계별 보호조치 강화를 요구하는 한편, 최소한 사전 학습단계(pre-training)에서 주요 개인식별정보 등이 제거될 수 있도록 인터넷에 개인정보가 노출된 것을 탐지한 데이터(URL)를 AI 서비스 제공사업자에게 제공할 계획이다.
또한, AI 모델 등 개선 목적으로 이용자 입력 데이터에 대한 인적 검토과정을 거치는 경우 이용자에게 관련 사실을 명확하게 고지하고 이용자가 입력 데이터를 손쉽게 제거·삭제할 수 있도록 해당 기능에 대한 접근성을 제고하도록 권고했다.
더불어 AI 서비스와 관련된 내용을 종합해 개인정보 처리방침 등에 보다 구체적으로 안내하고 부적절한 답변에 대한 신고 기능을 반드시 포함하는 것은 물론, AI 서비스 및 LLM의 취약점 발견 시 신속히 조치할 수 있는 프로세스도 갖추도록 개선권고 했다.
개인정보위에 따르면 LLM 복제 모델 또는 오픈 소스 형태로 배포되는 경우 LLM에 취약점이 발견되어도 후속 조치가 즉시 개선되기 어려운 사례가 확인됐다. 아울러, 동일 LLM 기반의 AI 서비스라도 사업자에 따라 개인정보 및 아동·민감정보에 대한 답변 등 침해 예방 조치의 정도가 달랐다.
eyre@heraldcorp.com