인공지능(AI) 기술 개발의 핵심 재료인 ‘비정형 데이터’에 대한 기준이 새롭게 마련됐다.
개인정보보호위원회(개인정보위)는 영상과 이미지, 영상, 음성, 텍스트 등 비정형 데이터에 대한 가명처리 기준을 제시한 ‘가명정보 처리 가이드라인’을 대폭 개정했다고 4일 밝혔다. 가명정보는 개인정보 일부 항목을 삭제·변형해 추가 정보 결합 없이는 특정 개인을 알아볼 수 없도록 한 정보다.
비정형데이터는 사진·이미지, 비디오, 통화음성, 대화 기록, 논문·보고서, 블로그 등 일정한 규격이나 정해진 형태가 없이 구조화되지 않은 데이터를 말한다. AI 기술이 빠르게 발달하면서 지난해 기준 비정형 데이터는 전 세계 데이터의 약 90%를 차지할 정도로 수요가 급증하고 있다.
기존의 가명정보 처리 가이드라인은 정형데이터에 대한 처리기준만 제시하고 있어 기업과 연구기관이 AI 기술 개발할 때 적합한 가명처리 방법이나 수준에 대한 불확실성이 크다는 지적이 제기돼왔다.
이에 개인정보위는 각 분야 전문가로 구성된 태스크포스(TF)를 운영하고, 산업계와 학계, 시민사회, 관계부처 의견 수렴 등 1년여 기간 동안 준비 작업을 거쳐 가이드라인을 대폭 개정했다.
개정된 가이드라인은 의료와 교통, 챗봇 등 주요 7개 분야에 맞게 사례를 설명해 현장에서 손쉽게 활용할 수 있도록 한 것이 특징이다.
예를 들어, 유방암·골밀도 감소 여부를 진단하는 AI를 개발하는 과정에서 병원에서 환자의 컴퓨터단층촬영(CT) 데이터를 사용할 때 ‘블랙마스킹’ 기법으로 가명 처리해 CT 사진 내 환자 번호나 생년월일, 성별 등을 지우도록 권고했다.
CCTV와 같은 교통정보 등에 비정형데이터를 활용할 경우 행인이나 차량 탑승자의 얼굴과 차량 번호판을 컴퓨터가 식별할 수 없는 수준으로 가려야 한다고 했다.
AI 챗봇의 경우 언어 학습에 활용된 가명 정보가 그대로 답변으로 나오지 않도록 ‘학습 데이터베이스’와 ‘답변 데이터베이스’를 분리해 처리할 것을 명시했다. 또 이메일 주소와 ID 등 개인이 식별될 수 있는 항목들을 가명 처리해야 한다고 언급했다.
또, 가이드라인에서 언급된 위험성을 미리 진단할 수 있도록 ‘개인식별 위험성 검토 체크리스트’도 마련했다.
가이드라인은 5일부터 개인정보위 홈페이지와 개인정보포털에서 내려받을 수 있다. 개인정보위는 앞으로 ‘사전적정성 검토제’ 사례 등을 가이드라인에 추가하고 모범 사례를 확산해 나갈 계획이다.
사전적정성 검토제는 새로운 서비스를 기획·개발하려는 사업자가 개인정보위와 함께 개인정보보호법 준수 방안을 사전에 마련하고, 이를 적정하게 적용했다면 추후 사정 변화 등이 없는 한 행정처분을 면제하는 제도다.
고학수 개인정보위 위원장은 “AI 등 많은 신기술 영역은 현장의 불확실성을 해소할 수 있는 세밀한 데이터 처리정책이 중요하다”면서 “이번 가이드라인을 시작으로 대규모 언어모형 등 생성형 AI와 관련한 ‘공개된 개인정보 처리 가이드라인’등 현장의 어려움을 해소할 수 있는 기준을 올해 중에 차례로 발표하겠다”고 밝혔다.
댓글0