[디지털타임스] [테크&포커스] AI열풍 속 고갈되는 학습데이터… `합성데이터` 돌파구 될까

뉴스BOT 쪽지보내기 메일보내기 자기소개 아이디로 검색 전체게시물 작성

525 조회
목록

기술.png

현실데이터 2년뒤 소진 예상돼

생성 시장 21억달러 성장 전망

개인정보·편향 문제 없어 장점

가이드라인 마련… 활성화해야

인공지능(AI) 경쟁이 갈수록 뜨거워지면서 그래픽처리장치(GPU)를 비롯한 AI인프라 부족이 기술 발전의 발목을 잡고 있다. 데이터센터 등에 필요한 에너지 부족도 문제로 꼽힌다. 그런데 머지 않아 데이터 부족이 또 다른 문제로 부각될 전망이다.

데이터는 2010년대 빅데이터가 떠오를 때부터 '21세기의 원유'라 불렸다. 딥러닝 기술인 트랜스포머 기반으로 방대한 데이터를 사전학습시킨 대형언어모델(LLM)이 세계적인 생성형AI 열풍을 일으키면서 중요성이 더욱 높아지고 있다. 데이터세트와 매개변수(파라미터) 규모가 확대될수록 AI모델 성능이 증가하는 스케일링 법칙이 유효한 상황에서 데이터는 곧 경쟁력이기 때문이다.

하지만 사람들이 생성해 인터넷 등에 공개하며 데이터가 쌓이는 속도보다 AI가 데이터를 학습하는 속도가 더 빠르다면, 새로 학습할 데이터가 고갈된다는 결론이 나온다. 이런 흐름에 따라 합성데이터(Synthetic Data, 재현데이터)가 그 대안으로 제시되고 있다. 실제 데이터와 유사한 특성을 지니도록 재현한 가상의 데이터로, AI 등으로 완전히 새로운 데이터를 만들어 낸 것이다.

◇고갈돼 가는 현실 데이터의 대안

미국 비영리 AI리서치기업 에포크AI(Epoch AI)가 2022년 말 내놨던 연구를 이달 초 업데이트한 자료에 따르면, 사람이 생성해 공개한 텍스트 데이터 재고는 약 300조 토큰 규모로 추정된다. AI 언어모델에 공급되는 텍스트 데이터의 양은 매년 약 2.5배씩 증가하고 있고, 이런 추세가 계속된다면 2026년부터 2032년 사이에 데이터 재고를 모두 소진할 것으로 예측된다.

AI모델 경량화·효율화 흐름에 따라 모델 크기보다 학습 데이터 토큰 수를 늘리는 시도가 확산될수록 소진 속도는 더 빨라질 전망이다. 이런 '오버트레이닝'이 메타 라마3 70B 모델의 경우 10배가량 이뤄졌다. 앞으로 AI모델들이 '오버트레이닝'을 5배 정도로 진행하면 2027년, 100배까지 높아지면 내년에 다 소진된다는 게 에포크AI의 주장이다. 데이터세트보다 파라미터 규모를 늘리는 '언더트레이닝'으로도 발전할 수 있으나 한계가 있을 것으로 분석됐다.

챗GPT로 AI분야를 선도하고 있는 오픈AI가 최근 파이낸셜타임스(FT)와 월스트리트저널(WSJ) 등 세계 주요 언론사들 및 온라인 커뮤니티 레딧 등과 콘텐츠 사용 계약을 속속 체결하고 있는 배경에는 저작권 문제 해결뿐 아니라 데이터 확보도 주요 목적인 것으로 해석된다.

나아가 AI기업들은 합성데이터로도 눈을 돌리고 있다. 실제 데이터처럼 따로 라벨링을 거칠 필요 없고 개인정보·민감정보 포함 문제도 원천적으로 해결 가능하다. 이미 자율주행, 금융사기 예방, 의료 진단 등 다양한 분야에서 이를 통해 AI 성능을 높이고 있다. 에포크AI도 신경망을 유사한 분야 등에 재사용하는 전이학습(Transfer Learning) 및 데이터 효율화와 함께 합성데이터를 현실세계의 데이터 고갈에 대한 해결방안으로 제시했다.

국내에서도 의료나 금융 및 재난재해 등 학습할 데이터가 부족하거나 민감한 분야 중심으로 활용을 꾀하는 분위기다. 과학기술정보통신부와 한국지능정보사회진흥원은 AI학습데이터 구축사업에 지난해부터 합성데이터를 포함시켰다. 신신애 NIA 지능데이터본부장은 "앞으로 분야별 특화AI에 필요한 데이터 마련에 힘쓸 계획이다. 현실세계에 없거나 편향성 제거가 필요한 경우에는 합성데이터로 생성하는 것도 고려 중"이라고 말했다.

◇합성데이터, AI안전성 확보에도 기여 가능

합성데이터는 AI 편향성을 제거하기 위한 수단으로도 쓰인다. 특히 오픈AI 대항마로 평가받는 앤스로픽의 경우 AI 안전성을 위한 '헌법적 AI(Constitutional AI)' 구현을 위해 합성데이터를 적극 활용하고 있다. 기존 데이터 기반으로 사람처럼 편향이 발생하지 않도록 합성데이터 학습을 통해 정렬하는 것이다. 지난달 해체된 오픈AI 초정렬팀도 이런 종류의 업무를 한 것으로 알려졌다.

하정우 네이버클라우드 AI이노베이션센터장은 최근 한국산업기술진흥협회가 개최한 컨퍼런스 기조연설에서 "사람이 만든 데이터로 모델 학습을 진행하면 사람의 행동양식이 그대로 AI에 녹아들어가는 현상이 생기기도 한다. 모델이 커지고 데이터를 많이 학습할수록 이런 현상이 도드라지게 된다"며 "사람의 나쁜 점이나 굳이 닮지 않아도 되는 점을 어느 정도 중화시키려면 사람이 만든 데이터가 아닌 것으로도 학습해야 한다"고 설명했다.

네이버는 AI가 종교·도덕 등 민감한 이슈에 대해 편향적으로 발언하는 문제를 완화하기 위한 한국어 데이터세트 구축에 합성데이터를 활용했다. 이 한국어 데이터세트와 AI를 활용한 안전성 강화 데이터 생성 프로토콜을 제안한 논문은 지난해 글로벌 최고 권위 AI학회에 채택됐다. 서비스 적용에 필요한 양질의 데이터를 확보에도 '하이퍼클로바X'로 생성한 합성데이터를 활용하고 있다. 이로써 독거노인 등을 위한 AI안부전화 서비스 '클로바 케어콜'도 다양한 주제로 자연스러운 대화가 가능해지도록 하고 있다.

합성데이터 기술력으로 데이터 분석·활용 범위를 넓히는 시도도 이어지고 있다. 지난 2월 LG CNS는 서울시와 함께 서울시민 생활 특성을 담은 합성데이터를 성공적으로 생성, 서울시 오픈플랫폼인 빅데이터캠퍼스를 통해 선보였다. LG CNS가 가명처리된 74만명의 샘플데이터 기반으로 가명정보 결합 등을 통해 382만 서울시민 가구(약 740만명) 분량으로 확대 재현, 주거·소비·금융 패턴 등에 대한 분석이 가능하도록 서울시가 지자체 중 최초로 공개한 것이다.

LG CNS는 생성부터 활용목적에 맞는 최적의 생성 방법론 설계, 생성 후 성능 평가, 공개 절차 등까지 지원하는 합성데이터 통합 서비스를 제공하고 있다. 노혜진 LG CNS 데이터결합분석팀장은 "글로벌 시장에서 합성데이터의 활용 가치는 빠르게 증가할 것"이라며 "합성데이터 활용 아이디어부터 생성을 위한 기술과 인프라, 생성을 위한 데이터 공급 등 산업 전반을 제대로 육성하기 위해 민관이 함께 머리를 맞대고 액션을 취해야 한다"고 제언했다.

◇합성데이터 관련 법제도·체계 정비 필요

합성데이터 수요가 확산되면서 미국 그레텔과 오스트리아 모스틀리AI 등 전문적으로 시장을 공략하는 기업들도 늘어날 것으로 보인다. 시장조사업체 마켓앤마켓에 따르면 합성데이터 생성 시장은 지난해 3000만달러(약 417억원) 규모에서 연평균 45.7% 성장, 2028년 21억달러(약 2조9211억원) 규모에 이를 전망이다. 지란지교데이터 등 국내 기업들도 개인정보 보호 기술 기반으로 합성데이터 생성 기술 특허를 획득하는 등 관련 시장 공략에 나서고 있다.

차형건 지란지교데이터 융합사업부장은 "특허 기술은 원본데이터를 분석해 목표 통계를 도출하고, 미리 등록된 가상인물 중 원본데이터와 목표통계에 상응하는 가상인물을 선택해 합성데이터를 생성하는 과정으로 구성된다. 추가적으로 가상인물이 필요하면 신규 가상인물을 생성·등록해 합성데이터를 생성할 수 있다"며 "지난해에는 2개 공공기관의 시범사업에 참여해 이미지 합성데이터 및 교통분야 합성데이터를 생성한 실적을 보유했다"고 말했다.

최근 개인정보보호위원회도 국내 합성데이터 기술 활성화를 위해 합성데이터 생성 참조모델 5종을 공개했다. 구강 이미지, 안전모 착용 이미지, 혈당 측정정보 등 5가지 종류의 합성데이터세트와 함께 해당 데이터를 생성한 절차·과정에 대한 설명이 포함됐다. 실제 데이터의 유용성을 최대한 유지하면서도 원본데이터에 포함된 개인이 식별되지 않도록 합성데이터를 생성하는 게 핵심이며, 유용성 검증과 안전성 검증을 적절히 수행하며 균형점을 찾을 것을 강조했다.

이렇듯 국내 관계부처·기관들도 AI의 대두에 따라 합성데이터에 관심을 갖고 관련 행보를 보이고 있지만, 현장에서는 아직 법·제도나 가이드라인이 불충분하다는 목소리가 나온다. 개인정보보호법을 비롯해 법위반을 우려해 관련 시장 움직임이 조심스러운 상황이다.

과거 통계청 등이 먼저 재현데이터라고 쓰면서 한동안 있었던 용어 관련 혼란은 어느 정도 정리돼가는 분위기지만, 가명정보와 익명정보 중에 어느 범주로 볼 것인가 논의는 여전히 진행되고 있다. 가상의 데이터인 만큼 익명정보로 판단해야 한다는 의견이 힘을 얻고 있지만, 이를 위해서는 익명성을 판단할 수 있는 기준 및 체계도 요구된다. 이밖에도 암을 찍은 내시경 영상을 합성데이터로 만들려면 다양한 사례가 있어야 하는데 이를 구하기 쉽지 않는 등 합성에 필요한 데이터부터 문제가 되기도 한다.

업계 관계자는 "합성데이터 생성 기술은 글로벌에서도 이제 막 연구개발이 활발하게 이뤄지는 차세대 기술"이라면서도 "기술에 대한 기준, 개인정보 보호 수준을 판단하는 기준이 마련되지 않아 애로사항이 있다. 국내 가이드라인이 마련돼야 본격적으로 활성화될 수 있을 것"이라고 밝혔다.

팽동현 기자([email protected])