네이버가 자사 기사를 무단으로 생성형 인공지능(AI) 학습 데이터로 활용했다며 KBS, MBC, SBS 등 지상파 3사가 제기한 저작권 침해 민사소송에서 ‘침해 대상이 된 개별 저작물’ 사례가 핵심 쟁점이 되고 있다. AI 학습 데이터 관련 방송사-네이버 간 정보 비대칭에 따른 입증의 어려움, 여타 ‘약관’이나 ‘공정이용’ 등 쟁점을 종합적으로 고려할 때 언론사에 좋은 시그널로 보긴 어려운 상황이다.
◇재판부 “저작권 침해 개별 저작물로 판단할 수밖에 없어”
서울중앙지방법원 제63민사부는 6일 지상파 3사가 네이버를 상대로 제기한 저작권 침해 중지 등 청구 소송 2차 변론에서 “네이버 측이 (저작권을 침해한) 개별 저작물의 특정이 필요하다고 주장한 것이 사건의 본질을 흐리는 행위로 보이진 않는다”며 “저작권 침해를 청구원인으로 제시한 이상 구체적 침해는 개별 저작물을 통해 판단할 수밖에 없다”고 했다. AI가 통째로 학습한 데이터에는 저작권 보호 대상이 아닌 것도 있는 만큼 차후 집행 가능성 등을 고려할 때도 대상 저작물을 특정하는 게 필요하다는 요지다.
이날 네이버 측 변호인단은 1차 변론 때에 이어 “원고들이 (네이버에) 학습을 금지하고자 하는 기사가 무엇인지 저작물을 특정하지 않았다. 특정이 돼야 방어권을 행사할 수 있다”고 다시 밝혔다. 이에 지상파 3사 측 변호인단이 AI 학습엔 개별 기사가 아니라 전처리를 거친 기사들의 데이터 뭉치가 필요하다며 네이버 측이 개별기사 다툼으로 논점을 흐리고 있다고 반박한 상황에서 재판부가 학습 대상에 대한 특정의 필요성을 분명히 한 것이다.
9월 1차 변론 때도 소송 대상 저작물이 특정되지 않았단 점이 거론됐다. 당시에도 네이버 측은 침해를 주장하려면 대상 특정이 있어야 한다고 했다. 방송 3사 측은 네이버 측에서 뉴스콘텐츠를 AI 개발 과정에서 사용했는지, 안했는지 명확히 해달라고 요청하며 “네이버 쪽 주장대로면 AI 업체가 다른 사람의 저작물 성과를 마음대로 쓰고 대가를 지급하지 않아도 된다는 것”이라고 했다. 이어 “사용했는지는 AI 학습 관련 모든 정보를 가지고 있기 때문에 네이버가 관련 증거로 설명해야 한다”고 덧붙였다.
재판부는 이에 “원고(지상파 3사) 측은 새로운 유형의 소송 특성상 저작물 특정이 어렵다 정도로 답변했다”며 “구체적으로 어떤 저작물이 침해되었는지 특정할 노력이 필요하다”고 했다. 네이버 측에도 “제공받은 것 중 AI 학습에 이용한 콘텐츠들을 특정할 수 있으면 특정하는 것을 검토해달라”고 주문했다. 결국 2차 변론을 마친 상황에서 재판부가 구체적 침해 사례를 제시할 수 있는지 등을 짚은 만큼 원고 측에서 앞으로 제출할 증거 등이 관건이 된 모양새다. 지상파 3사는 이날 재판부 요청에 “침해 대상이 된 개별 저작물에 대한 증거를 서면으로 제출하겠다”고 답했다.
저작권 침해 주장 시 저작권자가 입증책임을 진다는 지점은 AI 학습데이터를 둘러싼 저작권 이슈에서 언론 쪽의 난점으로 지적돼 왔다. 2023년 11월 한국신문협회와 한국언론진흥재단이 주최한 <생성형 AI 시대 뉴스 저작권 보호방안> 토론회에서 이대희 고려대 법학전문대학원 교수는 “생성형 AI 학습에 언론 기사가 활용됐는지 증거를 확보하는 노력을 기울여야 한다”면서 이 과정의 어려움을 말했다. 그는 당시 “챗GPT3가 학습데이터를 공개했지만 뭘 학습했는지 제대로 알 수 없다. 네이버의 하이퍼클로바도 블로그, 카페, 뉴스, 댓글, 지식인, 위키피디아 등을 학습했다고 했는데 저작권자 개인적으로 입증할 수 있을까. 어려움이 있을 것”이라고 말했다.
지상파 3사 측은 앞서 저작권 침해와 더불어 데이터 부정사용, 성과도용, 민법상 불법행위 등 4가지 청구원인을 통해 각 사에 2억원씩 지급을 요구한 바 있다. 차후 소송을 진행하며 청구 취지를 확장해 손해액을 높이고 뉴스 저작권을 침해했다는 추가 증가도 제출한다는 계획을 밝혀왔다. 지상파 3사를 대리하는 법무법인 KCL 김태경 변호사는 1차 변론 당시 기자들과 만난 자리에서 “아직 정확히 구체적으로 방법을 밝힐 수는 없지만 민사소송법에서 허용하고 있는 증거신청 방법을 고려하고, 해외 언론사들에서 시도하고 있는 증거신청 계획을 활용해 증거신청을 할 계획”이라고 했다.
◇약관해석 충돌 “포괄적 이용 상호 동의” vs “AI 학습과 무관”
지상파 3사가 저작권 침해 사례를 제시하더라도 여러 쟁점이 산적한 상태다. 상호 간 체결한 뉴스제휴 계약 약관의 해석이 대표적이다. 네이버 측은 약관 제8조 3항 등에서 뉴스 검색 서비스와 별도로 ‘네이버는 서비스 개선, 새로운 서비스 개발을 위한 연구를 위해 정보를 이용할 수 있다’고 명시하고 있고, 계열사 네이버클라우드에서 AI 학습에 기사를 활용할 수 있는 권한도 지니고 있다고 주장한다. 무단 사용이 아닌 만큼 해외 AI 기업 소송과 다르다는 점도 지속 언급하고 있다.
2차 변론에서 네이버 측은 약관 2조4항 등의 ‘문장 추출’이란 문구 자체가 AI 학습을 위한 데이터 전처리 등 절차를 염두한 것이고 이를 방송사 역시 알고 있었으며, 포괄적 이용에 대한 대가로 원고들에게 지급한 비용이 50%이상 급증해 5년 간 수백억원을 지급했다고도 주장했다. 지상파 3사 측은 이날 법정에서 “(피고 측이) 약관 해석 원칙에 위배되는 해석을 하고 있다”면서 “설명과 사실관계가 전혀 다른 부분이 있어 준비서면을 통해 반박하겠다”고 했다.
이번 저작권 분쟁에서 나오는 네이버 뉴스제휴 약관 논란은 그간 언론계의 관련 논의에서 수차례 전망됐다. 네이버 측은 약관이 뉴스데이터를 AI 학습용으로 쓰는 부분도 포함한다고 주장하지만 약관의 목적이나 정의, 규정에 따르면 이는 뉴스 서비스와 관련한 부가 서비스로 해석하는 것이 맞지 AI 개발 및 관련 서비스와는 무관하다는 게 반박 요지다. 계열사 표현 역시 이 사건과는 무관하다는 평가도 있었다. 만일 학습 데이터 사용이 중요 사항이었다면 사용자는 설명의무를 지는데 이를 이행했는지도 따져봐야 한다는 게 그간 언론계 대응에서 필요한 지점으로 제시됐었다.
실제 2차 변론에서 재판부는 네이버 측에 “2023년 6월1일 개정된 뉴스제휴 약관에서 (AI 학습 시) 뉴스 이용과 관련해 동의 받는 절차를 넣었는데 이전 (제휴 체결 시엔) 사전동의가 불필요했나”란 질문을 던지기도 했다. 네이버 측은 “서면으로 답하겠다”고 했다.
◇저작권 침해 인정돼도 시사 보도 ‘공정이용’ 쟁점 남아
지상파 3사가 약관 해석에서 우위를 점해 저작권 침해를 인정받더라도 ‘공정이용’이란 쟁점이 남는다. 실제 네이버 측은 2차 변론에서 저작권법에 따라 사실 전달에 불과한 시사 보도의 경우 공정이용에 해당해 저작권법 보호 대상에서 제외된다고 주장하기도 했다. 한국과 유사한 저작권법 체계의 미국 내 생성형 AI 기업과 언론 간 다수 소송 사례 등에 비춰볼 때 이는 매우 첨예하고 어느 쪽도 승소를 자신하기 어려운 문제다.
생성형 AI 출범 초기 저작권 침해 소송을 중심으로 제기된 해외 언론과 글로벌 AI 기업 간 분쟁 양상은 대표적인 사례다. 2023년 12월 뉴욕타임스(NYT)는 오픈AI와 마이크로소프트가 자사 저작물을 무단으로 사용해 AI 모델을 훈련하고 있고, 저작권 침해에 해당한다며 소를 제기한 바 있다. 당시 NYT는 챗GPT가 NYT 기사의 일부 또는 전문을 거의 그대로 재현하는 사례를 소송 핵심 증거로 제시했다. 실제 소송 과정에선 단순 저작권 침해를 넘어 ‘공정이용’에 해당하는지, AI 서비스 요약본이 원저작물의 기존 시장을 대체하는지 등 광범위한 쟁점을 두고 양쪽이 다투고 있다.
소송 과정에서 올해 5월 법원은 증거 확보를 위해 오픈AI에 챗GPT의 모든 데이터와 로그를 무기한 보존할 것을 명하며 NYT의 손을 들어줬다. 오픈AI는 과도한 조치라고 반발했지만 법원 명령에 따라 7월부터 NYT는 챗GPT 출력 결과물을 중심으로 자료를 검토했다. 하지만 10월 법원은 새 명령문을 통해 기존 광범위한 데이터 보존 요구를 철회했다. 해당 판결로 향후 저작권 침해 여부 판단이 어떻게 나올지 불확실성은 더욱 커진 상태다.
언론사에 해당하진 않지만 9월엔 AI 스타트업 앤스로픽이 불법적으로 자신의 책을 이용했다며 저자들이 제기한 집단 소송에서 15억 달러(약 2조원) 합의가 이뤄지기도 했다. 저자들은 앤스로픽이 AI 챗봇 클로드 훈련 과정에서 자신들의 책을 승인이나 보상 없이 학습에 사용했다며 저작권 침해를 주장했고, 앤스로픽은 새로운 변형된 콘텐츠를 만들기 위해 저작권이 있는 작품들을 공정이용했다고 주장했다. 미국 법원은 올해 6월 공정이용을 인정하면서도 해적 사이트들에서 최대 700만권 책을 불법적으로 내려받았을 수 있다고 판단해 배심원 재판으로 넘겼고, 12월 열릴 예정이었다.
◇지상파 3사 외 여타 국내 언론도 대비 필요 시점
지상파 3사와 네이버 간 저작권 침해 소송 3차 변론 기일은 2026년 1월22일 오후 2시10분으로 잡혔다. 생성형 AI 기업을 상대로 한 국내 언론사들의 첫 소송이란 평가를 받는 이번 소송의 향배가 어떻게 될지 현재로선 장담할 수 없는 여건이다. 해외 소송에서도 언론사와 AI 기업 간 특정한 조건이나 재판부에 따라 크게 다른 결과가 나오는 게 현 상황이다. 이미 소송 중인 지상파 3사와 별도로 여타 국내 언론사들 역시 면밀한 대비가 필요하다는 지적이 나온다.
특히 이 같은 시기 해외에선 생성형 AI 등장 초기 주로 저작권을 중심으로 전개되던 AI 학습 데이터 관련 분쟁이 반독점, 상표권, 크롤링 통제 등으로 다각화하는 양상을 참고할 만하다. AI 검색엔진의 부상과 맞물려 ‘제로클릭’이 본격화되고 있고, 언론의 수익을 침해하는 경향이 늘며 법적 전략도 다층적으로 진행되는 모습이다.
한국언론진흥재단은 10월 발간한 미디어이슈 리포트 제5호 <생성형 AI 관련 해외의 저작권 분쟁 사례와 과제>에서 언론사들의 관련 대응으로 공동 전선 구축과 소송 전략 다각화를 한 가지 방안으로 제시했다. 언론재단은 비슷한 피해를 입은 언론사들이 힘을 합쳐 공동 소송을 내거나 동시 다발적으로 다른 청구 취지를 제기함으로써 효과를 극대화할 수 있다며 해외 언론 사례를 들었다.
언론재단은 “펜스케 미디어는 반독점을 위주로 소송을 냈고, 다우존스는 저작권으로, 브리태니커는 상표 이슈까지 망라하여 각기 다른 법리로 공격하고 있다”며 “이를 통해 어느 한 쪽이라도 법적 승인을 받으면 플랫폼에 제약을 가하는 전략적 이점을 확보할 수 있다”고 설명했다.
최승영 기자의 전체기사 보기
Copyright @2004 한국기자협회. All rights reserved.