"무단 학습의 종말, '데이터 라이선스'라는 값비싼 통행료

나는 뿌연 창밖의 풍경을 보는데 오늘따라 하늘이 쟂빛처럼 보이는지, 마치 거대 언어 모델(LLM)이 뱉어낸 무미건조한 텍스트 덩어리를 보는 듯하다.

나는 생각에 잠긴다. 과연 우리는 ‘창작의 종말’을 목격하고 있는가, 아니면 ‘데이터 연금술’의 탄생을 목격하고 있는가.

나는 이것을 ‘데이터 경제학의 제2막’이라 규정한다. 무단 학습의 시대가 저물고, 합법적인 데이터 거래 시장이 열리고 있는 것이다. 이 글에서 나는 이 변화의 본질을 꿰뚫어 보고, 과연 누구의 지갑이 두꺼워지고 있는지 냉정하게 분석해보고자 한다.

List

AI 저작권 소송의 ‘합의’ 트렌드를 TMA 수석 편집자의 시각으로 냉철하게 분석합니다. 무단 학습 시대가 가고 데이터 거래 시장이 열립니다.

무단 학습이라는 ‘공짜 점심’은 끝났다

내가 몇 년 동안 활동하면서 목격한 가장 일관된 진리는 “빅테크는 결코 손해 보는 장사를 하지 않는다”는 것이다. 그들이 초기에 전 세계 웹사이트의 데이터를 무차별적으로 긁어모아 LLM을 학습시킨 것은, 그것이 법적으로 정당해서가 아니었다. 단지 ‘먼저 깃발을 꽂는’ 것이 사후 벌금보다 가치 있다고 판단했기 때문이다. ‘용서가 허락보다 쉽다’는 실리콘밸리의 오랜 격언을 실천한 셈이다.

하지만 이제 상황이 변했다. 뉴욕타임스(NYT)를 필두로 한 메이저 언론사들의 소송은 빅테크들에게 실존적 위협이 되었다. 법원이 만약 “저작권 침해 데이터로 학습된 모델은 폐기해야 한다”는 판결이라도 내리는 날엔, OpenAI나 구글 같은 기업들의 시가총액은 순식간에 증발할 것이다. 그들이 ‘합의’의 테이블로 기어 나온 이유는 윤리적 각성이 아니라, 이 무시무시한 법적 리스크를 ‘예측 가능한 비용’으로 치환하기 위해서다.

나는 이 합의 과정이 결코 평등하지 않다고 본다. 그것은 철저하게 갑(빅테크)의 필요에 의해 을(언론사, 미디어 그룹)을 ‘매수’하는 과정이다. 빅테크는 합의금을 던져주고 법적 면죄부를 사는 동시에, 향후 모델 고도화에 필요한 ‘고품질의 검증된 데이터’를 안정적으로 공급받는 파이프라인을 확보했다. 이것은 협상이 아니라, 데이터 식민지화의 서막이다.

데이터는 ‘고단가 원자재’로 신분이 상승했다

예전의 데이터는 그저 웹서핑 중에 흩어지는 먼지 같은 존재였다. 하지만 지금의 데이터는 2026년형 AI 제련소에서 가장 귀하게 취급되는 ‘프리미엄 원자재’다. 특히 인간이 작성한 논리적이고 사실에 기반한 텍스트 데이터(Fact-based Text Data)의 몸값은 천정부지로 치솟고 있다. 인터넷상의 쓰레기 같은 데이터(Garbage in, Garbage out)로는 더 이상 성능 향상을 기대할 수 없기 때문이다.

최근 OpenAI가 AP통신, 아 Axel Springer, Le Monde, Prisa Media 등 전 세계 주요 미디어 그룹과 맺은 연단위 라이선스 계약들을 보라. 계약 규모는 수천만 달러에서 억 달러 단위로 추정된다. 이것은 단순한 뉴스 콘텐츠 전재료가 아니다. AI 모델이 인간의 언어 논리를 학습하고, 실시간 사실 관계를 확인(Grounding)하는 데 쓰이는 ‘최상급 대형 언어 모델 연료’ 값이다.

내가 생각하는 것은 이러한 데이터 라이선스 계약은 두 가지 방식으로 이루어진다. 첫째는 과거 데이터 학습에 대한 소급 적용(면죄부), 둘째는 향후 생성되는 데이터에 대한 실시간 접근 권한이다. 빅테크들은 이제 데이터에 정가를 매기고 구매한다. 이 과정에서 중소 미디어는 철저히 배제된다. 빅테크는 ‘덩어리가 큰’ 메이저 미디어하고만 협상한다. 이것은 미디어 산업 내의 양극화를 더욱 심화시키는 결과를 초래할 것이다.

‘재창작’의 가치는 어디로 갔는가

AI 기업들은 줄곧 ‘공정 이용(Fair Use)’ 항변을 방패로 삼아왔다. 기존 저작물을 그대로 베끼는 것이 아니라, 데이터를 분석하여 ‘새로운 지식’을 창출하는 ‘변형적 사용(Transformative Use)’이라는 주장이다. 나는 이 주장에 일리가 있다고 보았다. 하지만 최근 법원의 기류와 AI 기업들의 합의 행보는 이 방패에 균열이 가고 있음을 보여준다.

만약 AI가 생성한 결과물이 원저작물과 지나치게 유사하다면, 그것은 변형이 아니라 복제다. 그리고 그 유사성을 판단하는 기준은 점점 까다로워지고 있다. 빅테크들이 저작권자들과 합의를 맺는다는 것은, 역설적으로 그들도 자신들의 ‘공정 이용’ 주장에 100% 확신을 갖지 못한다는 반증이다. 그들은 법적 선례(Precedent)가 만들어지기 전에 돈으로 문제를 덮으려 한다.

더욱 심각한 문제는, 이러한 합의가 ‘데이터 권력’의 고착화를 가져온다는 점이다. 돈이 많은 빅테크만이 고품질 데이터를 합법적으로 구매하여 고성능 AI를 만들 수 있다. 자본이 부족한 스타트업이나 오픈소스 커뮤니티는 여전히 무단 학습의 위험을 안고 ‘쓰레기 데이터’를 헤매야 한다. 이것은 AI 시장의 진입 장벽을 높여 빅테크의 독점을 공고히 하는 결과로 이어질 뿐이다.

빅테크가 자본력으로 데이터 저작권 문제를 ‘비용’으로 치환하는 사이, 우리는 더 실체적인 위협에 직면하고 있습니다. 소프트웨어를 넘어 물리적 세계로 확장되는 AI의 안전 규제와 그 책임 소재는 누구에게 있을까요?

결론: 데이터 유료화 시대의 승자와 패자

결국 ‘Settle(합의)’ 트렌드는 AI 산업의 성숙이 아니라, 자본에 의한 질서 재편이다. 무단 학습이라는 ‘서부 개척 시대’는 끝났다. 이제는 ‘통행료’를 내고 데이터를 사야 하는 ‘봉건제 시대’가 도래했다. 이 새로운 데이터 경제학에서 승자와 패자는 명확하다.

가장 큰 승자는 역시 빅테크다. 그들은 천문학적인 법적 리스크를 돈으로 해결했고, 경쟁자들이 감히 넘볼 수 없는 ‘합법적 고품질 데이터 공급망’을 구축했다. 두 번째 승자는 메이저 미디어 그룹이다. 그들은 사양 산업으로 취급받던 뉴스 콘텐츠를 고단가 원자재로 둔갑시켜 새로운 수익원을 창출했다.

패자는 누구인가. 자신의 창작물이 AI 학습에 쓰이는지도 모른 채 아무런 보상도 받지 못하는 개인 창작자들이다. 빅테크는 ‘단체(언론사)’와는 합의하지만, ‘개인(작가, 화가, 블로거)’은 무시한다. 그리고 고성능 AI의 혜택이 빅테크의 독점적 플랫폼 안에서만 제공되는 미래를 맞이할 일반 사용자들이다.

차가운 김포의 바람이 창문을 더 세게 흔든다. 식어버린 커피잔은 비워졌지만, 내 마음은 여전히 묵직한 질문들로 가득 차 있다. 우리는 지금 데이터 자본주의가 만들어낸 거대한 가두리 양식장으로 걸어 들어가고 있는 것은 아닌가.

팩트 체크 3

미디어 그룹과의 합의 가속화: 2025~2026년 OpenAI, 구글 등 빅테크 기업들은 AP통신, Axel Springer, Le Monde 등 글로벌 미디어 그룹들과 수천만 달러 규모의 데이터 라이선스 계약을 연이어 체결하며 법적 리스크 해소와 고품질 데이터 확보에 나서고 있다.

데이터 가격의 신분 상승: AI 모델의 성능 향상을 위해 ‘사실에 기반한 고품질 텍스트 데이터’의 수요가 급증하면서, 해당 데이터는 단순한 정보가 아닌 고단가 원자재로 취급되며 데이터 라이선스 시장의 핵심 거래 품목이 되었다.

양극화 및 독점 심화: 빅테크의 데이터 구매 패턴이 메이저 미디어 그룹에 집중되면서 미디어 산업 내 양극화가 심화되고 있으며, 자본력 있는 기업만이 합법적 데이터를 확보함으로써 AI 시장의 독점적 구조가 더욱 공고해지고 있다.

성찰적 질문

당신의 일상적인 기록과 창작물이 빅테크의 AI를 키우는 공짜 먹이가 되고 있다는 사실에, 당신은 얼마의 가격표를 매기겠는가?