[경향신문] AI 학습에 쓰이는 ‘공개데이터’ 정부 기준 나왔다
컨텐츠 정보
- 441 조회
- 목록
본문
개인정보보호법 제15조에 따른 ‘정당한 이익’ 조항이 적용되기 위한 요건. 개인정보보호위원회 제공
생성형 인공지능(AI) 모델 개발에 사용되는 ‘공개 데이터’ 처리에 대한 정부 차원의 기준이 처음으로 제시됐다. AI 개발 과정에서 법적 불확실성을 줄일 수 있을 것으로 기대된다.
개인정보보호위원회는 ‘AI 개발·서비스를 위한 공개된 개인정보 처리 안내서’를 마련했다고 17일 밝혔다.
공개 데이터는 인터넷상 누구나 합법적으로 접근할 수 있는 데이터다. 챗GPT와 같은 생성형 AI를 개발하기 위한 학습 데이터의 기본 재료이다. 커먼크롤(인터넷상 데이터 공개 저장소), 위키백과, 블로그, 웹사이트 등에 있는 공개 데이터를 스크래핑(웹사이트에서 필요한 데이터를 자동으로 추출하는 기법) 방식으로 끌어다 AI 학습에 활용하는 것이다.
문제는 이들 공개 데이터에 여러 개인정보가 무작위로 포함될 수 있다는 점이다. 개인정보위에 따르면 커먼크롤에서 공개 데이터 31메가바이트(MB)를 임의추출 해보니 주소·전화번호·이메일·건강보험번호·계좌번호·신용카드번호 등 520건의 개인정보가 확인됐다.
하지만 현행 개인정보보호법에는 공개된 개인정보 처리에 적용될 수 있는 명확한 기준이 없다. AI 학습에선 데이터가 대규모로 처리되다 보니 개별적인 동의를 받는 것이 어려울뿐더러, AI 학습은 전통적인 개인정보 처리 방식과도 달라 기존 규정을 적용할 수 없던 것이다.
이에 개인정보위는 공개된 개인정보 수집·활용의 법적 기준을 명확히 하고, AI 개발·서비스 단계에서 어떤 안전조치를 취하는 것이 적정한지 기업이 참고할 수 있는 안내서를 만들었다. 기업들의 개인정보 침해 이슈를 최소화하는 동시에 법적 불확실성을 해소하려는 것이다.
안내서에선 개인정보보호법상 개인정보처리자의 ‘정당한 이익’ 조항에 의해 공개된 개인정보를 AI 학습·서비스 개발에 활용할 수 있다고 명시했다. AI 개발에 사용될 때의 이익이 정보주체(처리되는 정보에 의하여 알아볼 수 있는 사람으로서 그 정보의 주체가 되는 사람)의 권리보다 더 크다고 판단되면 활용할 수 있다는 의미다.
다만 정당한 이익 조항이 적용되기 위해선 AI 개발 목적의 정당성, 처리의 필요성, 구체적 이익형량이라는 세 가지 요건을 충족해야 한다. 또한 기업이 안전장치를 두도록 기술적·관리적 안전조치 방법과 정보주체 권리보장 방안도 구체적으로 안내했다.
개인정보위는 이번 안내서가 의무사항은 아니라고 강조했다. 대신 기업들이 저마다 여건에 맞춰 ‘안전조치의 최적 조합’을 골라 쓰도록 했다. 기업에 대한 또 다른 규제가 될 수 있다는 비판을 의식한 것으로 보인다. 개인정보위 관계자는 “AI가 급변하는 영역이다 보니 기술 혁신을 억제하는 것이 현시점에서 맞지 않다는 정책적 판단을 했다”며 “다만 개인정보 침해 사고가 발생했을 때 안전조치를 했다면 제재를 받지 않을 가능성은 높다”고 설명했다.
개인정보위는 ‘AI 프라이버시 민·관 정책협의회’를 중심으로 관련 논의를 이어오는 한편 유럽연합(EU)·미국 등의 국제 기준을 고려해 안내서를 발간했다고 밝혔다. 민·관 정책협의회 공동의장인 배경훈 LG AI연구원장은 “공개 데이터에서 개인정보를 안전하게 처리할 수 있는 기준을 제공함으로써 AI 기술 개발의 법적 불확실성이 낮아졌다”며 “국민이 신뢰할 수 있는 데이터 처리 환경에서 AI 기술의 혜택을 누릴 수 있는 기반이 될 것”이라고 말했다.
개인정보위는 시장 상황을 모니터링하며, 관련 법령을 정비해나갈 계획이다. 민·관 정책협의회 데이터 처리기준 분과장인 김병필 한국과학기술원(카이스트) 교수는 “개인정보 보호와 AI 혁신을 장려하는 절충점을 찾고자 노력했다”며 “다만 AI 기술이 빠르게 변화하는 만큼 안내서 내용도 지속적으로 발전시켜야 한다”고 밝혔다.
배문규 기자 [email protected]