"저널리즘 위한 AI 벤치마크 테스트 툴 필요"

컬럼비아저널리즘리뷰 "AI 기업 성능 테스트, 뉴스룸 중요 요소 측정 못해"

  • 페이스북
  • 트위치

인공지능(AI) 시대 여러 산업군에서 대규모 언어모델(LLM) 벤치마크 테스트를 자체 개발하는 움직임이 나오는 가운데 언론계에서도 뉴스 업종에 특화한 대응이 필요하다는 지적이 제기되고 있다. 언어모델의 광범위한 지식이나 추론 능력 등을 평가하는 일반적인 벤치마크는 특정 산업군, 즉 언론 영역의 실제 운영 환경에서 필요를 반영하지 못해 한계가 명확하다는 이유에서다.

미국 컬러비아대 저널리즘대학원에서 발행하는 ‘컬럼비아저널리즘리뷰’(CJB)는 최근 “언론인들을 위한 자체 벤치마크 테스트가 필요하다”(‘Journalists Need Their Own Benchmark Tests for AI Tools’) 기사를 통해 “AI 기업들이 사용하는 성능 테스트는 뉴스룸에서 중요한 요소를 측정하지 못한다”고 지적했다.

'언론인들을 위한 자체 AI 벤치마크 테스트가 필요하다'고 촉구한 컬럼비아저널리즘리뷰 기사.

기사는 AI 기업들이 LLM 성능 평가에 사용하는 벤치마크 테스트들이 모델의 전반적 정확도나 실제 역량을 향상시키기보다 “시험을 잘 보는 능력을 훈련시키고 있다”면서 “연구자들은 LLM 평가방식에 대한 근본적인 재검토를 촉구하고 있다”고 적었다. 이에 따라 광범위한 벤치마크 대신 소규모 작업 중심(task-based) 평가가 제안되고 있고, 실제 의학이나 법률, 교육, 금융 등 “위험도가 가장 높은 영역”에서 분야별 벤치마크 구축 움직임도 나오고 있다고도 설명했다.

같은 맥락에서 저널리즘 분야 시도를 소개하며 기사는 “대부분의 AI 시도는 기자나 뉴스 수용자를 염두에 두고 설계되지 않았으며, AI 기업들이 사용하는 벤치마크는 뉴스룸에서 중요한 요소를 측정하는 경우가 거의 없다”고 했다. “그 결과 기자, 편집자, 팩트체커들은 끊임없이 진화하는 모델이 자신들의 필요에 적합한지, 그 결괏값이 정확성, 투명성, 책임성, 객관성 같은 저널리즘 가치와 어떻게 부합하는지에 대한 가시성을 확보하지 못하고 있다”는 것이다.

구체적인 시도 사례로 CJB는 미국 노스웨스턴대 컴퓨테이셔널 저널리즘 연구소 소장 니콜라스 디아코풀로스(Nicholas Diakopoulos)가 주도하는 ‘뉴스룸 내 생성형 AI’(Generative AI in the Newsroom) 프로젝트를 소개했다. 뉴스룸을 위한 벤치마크 테스트 개발을 추진 중인 프로젝트는 AI 기업이 사용 및 제시하는 벤치마크와 관련해 “이 점수들 중 저널리즘에 어떤 모델을 언제 사용해야하는지 알려주는 게 있나”란 문제의식에 기반해 있다.

이에 따라 연구팀은 이번 여름 23명의 기자들과 ‘뉴스 벤치마크’의 가능성을 모색하는 워크숍을 진행하며 정보 추출(information extraction), 의미론적 검색(semantic search), 요약(summarization), 콘텐츠 변환(content transformation), 배경 조사(background research), 팩트체킹(fact-checking) 등 6가지 핵심 활용 사례를 도출했다.

CJB는 “편집 환경의 광범위한 차이로 인해 뉴스룸 업무를 벤치마크로 일반화하는 데 상당한 어려움이 있음을 확인했다. 공개 데이터셋 구축은 기밀성과 리소스 측면에서 과제도 낳았다”면서도 “그럼에도 강력한 평가는 막대한 자원을 필요로 하는 만큼 업계가 협력해 인프라를 공유하고, 표준을 개발하며, 도구를 독립적으로 테스트하는 것은 필수적”이라고 적시했다.

이어 일반적인 벤치마크가 항상 성능을 분명히 예측하는 것은 아닌 만큼 “개별 뉴스룸은 가장 중요하게 여기는 업무에 대해 AI 도구를 직접 평가하고 편집 우선순위를 반영해 ‘실패 테스트’(fail tests)를 설계해야 한다"고 덧붙였다.

미국 노스웨스턴대에서 진행 중인 '뉴스룸 내 생성형 AI' 프로젝트. 연구진은 저널리즘에 유용한 LLM 벤치마크 테스트 툴 개발을 추진하고 있다.

CJB는 업계 차원의 검토가 필요한 부분으로 ‘챗봇이 뉴스 콘텐츠를 제공하는 방식’에 대해서도 언급했다. 최근 주요 언어모델들이 인용한 전체 링크 출처 중 27%가 저널리즘과 관련이 있었고, 시의성 있는 질의에선 이 비율이 절반 수준까지 올라갔다는 연구결과가 나와 화제가 됐는데 “언론 콘텐츠가 LLM 사용자에게 자주 노출됨에도 불구하고 ‘챗봇이 보도를 정확히 재현하는지, 출처를 올바르게 인용하는지’, ‘기사를 재구성할 때 충분한 맥락을 제공하는지’에 대해선 거의 알려져 있지 않”고, 올해 BBC의 자체 테스트에선 “AI 툴이 종종 기사 내용을 왜곡한다는 사실이 발견되기도 했다”는 것이다. (관련기사: <"AI가 내놓는 답변, '저널리즘 콘텐츠' 크게 의존">)

이 같은 작업과 관련해 CJB는 “AI 모델에 대한 제3자 평가는 단순한 기술적 문제가 아니라 책임성의 문제다. 독립적이고 투명한 평가가 없다면 뉴스기관들은 기업의 주장으로 인해 장단점이 가려진 도구를 채택할 위험에 처한다”며 “명확한 기준을 수립하는 것은 AI의 저널리즘적 활용이 더 책임감 있고 신뢰할 수 있도록 하는 데 도움이 될 수 있다”고 강조했다.

최승영 기자의 전체기사 보기

배너

많이 읽은 기사