가명정보 지원 플랫폼서 누구나 활용 신청 가능
고학수 개인정보보호위원회 위원장이 22일 오후 서울 종로구 정부서울청사에서 열린 2024년 제9회 개인정보보호위원회 전체회의에서 의사봉을 두드리고 있다. [연합] |
[헤럴드경제=권제인 기자] 개인정보보호위원회가 개인정보 침해 우려 없이 인공지능(AI)에 데이터를 학습시킬 수 있는 ‘합성데이터 생성 참조모델’을 공개하겠다고 28일 밝혔다. 개인정보위는 합성데이터의 안정성이 매우 높은 만큼, 활용을 원하는 기업과 연구자에게 적극 제공할 계획이다.
합성데이터란 실제 데이터와 통계적 특성이 유사해 실제 분석과 유사한 결과를 얻을 수 있도록 생성된 가상의 데이터다. 데이터의 특성만 참조할 뿐 실제 개인과 직접 관련이 없어 개인정보에 대한 법적 제약 없이 활용 가능하다.
연구용역을 통해 마련한 참조모델에는 ▷구강 이미지 ▷안전모 착용 이미지 ▷혈당 측정 정보 ▷통신사 멤버십 사용내역 ▷기업주주·대표자 정보 등 5가지 합성 데이터셋과 데이터를 생성한 절차 및 과정에 대한 설명이 포함됐다.
개인정보위는 합성데이터를 활용하고자 하는 기업·연구기관 수요를 조사하고 그 수요에 맞춰 유용한 데이터를 생성했고, 생성 과정에 대해서는 각 분야 전문가로 구성된 연구반 검토, 외부전문가의 적정성 심의 등을 거쳤다고 밝혔다.
5종의 합성데이터에는 AI 기술을 비롯한 다양한 첨단 기술이 활용됐다. 합성데이터는 사전 준비, 합성데이터 생성, 유용성·안정성 검증, 활용 등 4단계를 걸쳐 만들어졌다. 합성데이터 생성에는 ‘적대적 생성 신경망(GAN)’ 기술이 사용됐다. 유용성·안정성 검증에서는 ‘구별 불가능성 검증’, ‘비쥬얼 튜링 테스트’, ‘구조적 유사성 검증’ 등의 기법이 활용됐다.
유용성 검증이란 합성데이터와 원본데이터가 얼마나 유사한지, 동일한 목표를 달성할 수 있는지를 검토하는 과정이다. 안전성 검증은 생성된 합성데이터를 통해 원본데이터 내 개인이 식별·추론될 가능성이 있는지 살핀다.
두 가치가 상충하는 만큼 개인정보위는 목표한 유용성·안정성 수준이 충족될 때까지 데이터를 재생성, 추가처리, 재검증하는 과정을 거쳤다고 설명했다.
합성데이터는 오는 3일부터 ‘가명정보 지원플랫폼’을 통해 공개된다. 합성데이터 활용을 원하는 기업이나 연구자는 누구나 신청할 수 있고 최소한의 확인 절차를 거쳐 제공될 예정이다.
고학수 개인정보위 위원장은 “합성데이터 생성 참조모델은 개인정보 침해 우려를 없애면서도 데이터를 적극적으로 활용하도록 해 관련 데이터 산업 생태계 발전에 크게 기여할 것”이라며 “본격화되는 데이터 경제 시대에 국민 삶의 질을 제고할 수 있도록 개인정보의 안전한 활용을 위해 적극 노력하겠다”고 말했다.
eyre@heraldcorp.com