구글 'AI 학습용 봇 접근' 요구… 도구 줄테니 데이터 문 열라?

국내 언론사 참여 프로그램에
학습접근 허용 등 의무사항 부과
언론사별 각자도생 가시화되나

  • 페이스북
  • 트위치

구글이 최근 국내 언론을 대상으로 뉴스룸의 인공지능(AI) 활용 능력과 도구 개발을 지원한다며 모집에 나선 프로그램을 두고 우려가 나오고 있다. 선정된 언론사에게 구글 AI 학습용 봇의 접근을 허용해야 한다는 의무사항 등을 부과한 게 과도하다는 비판이 대표적이다. 세계 여러 국가에서 AI 무단 학습에 맞선 언론사 공동대응이 나오는 가운데 이번 프로그램을 통해 본 뉴스데이터 접근에 대한 국내 언론의 엇갈린 판단은 대(對) AI 기업 대응이 분화하는 양상을 드러낸다. 특히 글로벌 빅테크와 제휴 등을 짐작하게 하는 ‘각자도생’의 흐름이 상당히 가시화되는 상황이다.

세계 여러 국가에서 AI 무단 학습에 맞선 언론사 공동 대응이 나오며 관심을 모으고 있다. 이미지는 챗GPT를 통해 생성한 주요 AI 플랫폼 애플리케이션 로고 모음.

◇AI 도구 지원할테니 데이터 문 열어라?
구글은 최근 국내 뉴스 매체사를 대상으로 ‘뉴스 AI 랩’ 공지를 통해 기자 교육과 뉴스 도구 개발을 지원하는 참여사 모집(5월4~15일)에 나섰다. 온라인 교육(사별 2인, 6주)과 워크숍(2일), 실험 및 도입(15개월) 등 과정을 거치며 구글은 교육과 클라우드 기술, 워크스페이스 라이선스를 제공한다. 4월 말 한국온라인신문협회, 5월 중순 한국신문협회에 홍보 협조 요청이 와 회원사에 전달됐고, 최근 결과가 통보됐다.


이 과정에서 참여 매체 의무사항을 두고 논란이 일었다. “파트너사는 구글 익스텐디드(Google Extended)를 포함하여 구글 봇(bot)들이 콘텐츠에 접근할 수 있도록 허용한다”는 조항이다. 구글은 목적에 따라 검색용(Googlebot), AI 플랫폼 제미나이 학습용(Google Extended), AI 데이터 수집용(GoogleOther) 등 여러 봇을 운영 중인데 지원 대가로 언론사에 AI 학습용 봇 접근을 허락하라는 조건이 무리하다는 지적이 나왔다. 결과나 과정에 대해 구글이 사례 연구 또는 마케팅, 프로모션에 쓸 수 있다는 내용도 있었다.


종합일간지 디지털 부문 한 관계자는 “2명을 교육해주고 도구 개발을 지원한다면서 사실상 다 공짜로 가져가겠다는 뜻을 내비친 것”이라며 “15개월 간 홈페이지를 열게 해 다 가져가고 나중엔 ‘교육할 때 열어뒀잖아’라고 하지 않을지 의문”이라고 했다. 그러면서 “지원에 따른 효과가 분명치 않고, 중소 언론 사이트는 구글 봇의 유입량을 감당하지 못할 수도 있다. 여러모로 경각심이 요구되고 문제적이라 봐서 지원하지 않았다”고 했다.


당초 구글은 최대 10곳까지 파트너사를 선정할 수 있다고 했고, 최종 선정사엔 레거시 언론도 상당수 포함된 것으로 알려진다. 파트너사가 된 신문사 한 관계자는 “해당 조항이 마음에 걸렸지만 기술 습득을 위한 드문 기회로 보고 현실적으로 접근했다. 국내 AI 기업의 미디어 지원 프로그램은 없는 상황이고 솔직히 그런 봇들을 제대로 막고 있지도 못하다. 무조건 안 된다기 보단 새 서비스나 모델, 콘텐츠를 고민하는 계기로 삼자 싶었다”고 했다.

◇누구에게, 무엇을, 얼마나 열 것인가
국내 언론과 AI 기업의 파트너십은 꾸준했지만 ‘뉴스데이터 제공’은 특히 신중함을 요하는 영역이었다. 이에 ‘권리 보호’와 ‘현실론’이 맞붙은 사별 엇갈린 판단은 언론의 ‘각자도생’ 대응 징후를 본격 드러내는 측면이 있다. 특히 1일 본보가 AI 관련 정책공표 행위로서 AI 관련 기본방침, 전략을 엿볼 수 있는 10개 주요 신문·통신사의 robots.txt 파일을 살펴본 결과 이런 흐름은 이전부터 진행돼 온 상태였다.


우선 플랫폼을 통한 트래픽 유입을 위해 ‘검색봇’은 모든 매체가 부분 또는 전체 허용하는 경향이 있었다. 꼭 AI 대응 맥락은 아니지만 검색엔진 주도 시장서부터 언론의 고민이 여전하단 의미다. 특히 중앙일보와 한국경제신문은 최근 자사 사이트에 ‘구글 검색 선호 출처로 추가’ 버튼을 배치했다. 지난해까진 외신만 가능했던 기능을 구글이 5월 전 세계 언어로 확대한 후 도입된 버튼은 검색 알고리즘 노출에 도움을 준다. 실제 중앙일보 관계자는 “구글에서 검색이 잘 되도록 하기 위한 홍보의 일환”이라 설명했다.


핵심인 AI 학습용 봇 정책은 검색봇과 달리 사별 극명한 차이를 보였다. 조선일보, 한겨레, 서울경제, 한국경제는 모두 구글 익스텐디드를 포함해 상당 AI 학습용 봇의 데이터 수집을 허하고, 일부 봇만 막고 있었다. 프로그램과 상관없이 AI 학습이 가능했단 뜻이다. 반면 경향신문과 동아일보, 한국일보는 명시적 또는 경로 제한으로 구글과 핵심 AI 학습봇 전반을 차단하고 있었다. 학습봇 전반을 차단한 매체의 AI 이해도나 대응은 더 본격적이었는데 검색과 학습 봇을 구분한 대응(한국, 경향), 저작권자 권리를 파일 내 정책선언문(한국)에 명시한 행보가 사례다.


특히 매일경제와 중앙일보는 AI 학습·데이터용 봇을 광범위하게 차단하면서도 구글 익스텐디드에만 문을 열어두고 있었다. 구글과 제휴 소지가 큰 형태다. 봇에 대한 선별적 허용은 지난해 12월 구글과 파트너십을 공개적으로 밝힌 연합뉴스에서 확인된다. 연합뉴스는 현재 구글 학습봇만, 텍스트 기사에 한해 접근을 허하고 있다. 중앙일보는 구글과 제휴 여부·범위 등을 물은 질문에 답하지 않았다.

◇“각개격파 당해선 다 잃어”
국내 언론들의 행보는 핵심 자산인 ‘뉴스데이터’를 두고도 단일대오가 무너지는 현실을 시사한다. AI 기업의 무단 크롤링 대응을 위한 비영리 컨소시엄 ‘RSL’을 비롯해 덴마크와 영국에서 각각 언론이 연합한 단체 ‘DPCMO’와 ‘SPUR’ 등까지 세계 국가에서 빅테크에 대응한 공동대응이 부상하는 것과 대비된다.


이성규 블루닷AI 대표는 “유럽 등에선 라이선스에 대한 이해관계를 지닌 언론사끼리 뭉쳐 원칙을 공유하는 움직임이 계속 나온다. 각자 할 일이 있지만 같이 대응 안하면 각개격파로 무너지는 영역도 있다”며 “언론사가 허용·차단한 AI 봇 내역만 봐도 이해 수준이 나뉜다는 인상인데 지금 그런 정보가 공유되는 역할을 하는 테이블이 있는지 의문”이라고 했다. 이어 “지금 열어둔 게 비즈니스 기회를 빼앗기는 기로일 수 있는데 무엇을 박탈당할 수 있는지 언론사 내 기본 이해나 역량이 갖춰졌는지도 돌아봐야 한다”고 덧붙였다.


이현우 한국언론진흥재단 선임연구위원은 “아직은 미지수이지만 점차 AI 관련 라이선스 마켓이 열리는 상황이다. 이렇게 시장이 형성되려 하는 단계에서 언론이 각개격파를 당해선 협상력을 다 잃을 수밖에 없다”고 우려했다. 이어 “포털이나 소셜의 시기 테크기업에게 시장 주도권을 내준 모습은 너무 익숙하다. 이 시기가 너무 아까운데 같이 뭔가를 해보기도 전에 개별적인 균열들이 생기는 게 너무나 아쉽다”며 “한번 체계가 굳어지면 바꾸기 어려운데 여느 때보다 동업자 의식이 중요한 때 아닌가 싶다”고 했다.

최승영 기자의 전체기사 보기

배너

많이 읽은 기사