1분당 5000명, AI가 기사 12개씩 추천… 결국 해냈다

[인터뷰] 'AI 기사추천 시스템 개발' 서영빈 동아일보 기자

  • 페이스북
  • 트위치

창간 103주년을 맞은 동아일보는 올해 디지털 전환 측면에서 여러 변화를 꾀했다. 동아닷컴에 지난 3일 도입된 ‘AI 추천기사 for you’ 서비스가 대표적이다. 이름대로 AI가 사이트에 방문한 독자 맞춤형으로 기사를 실시간 추천한다. 여러 언론사가 외주업체와 계약 등을 통해 자사 사이트에 도입한 기능이지만 동아일보는 이 시스템을 자체 개발했다. 특히 취재기자가 개발을 주도한 점이 특수하다. 데이터 저널리즘이나 인터랙티브 콘텐츠가 아닌 ‘AI 개발’을 기자가 한 사례는 찾기 어렵다. 서영빈 동아일보 기자는 지난 13일 본보와 인터뷰에서 “발제를 할 때 직접 해보고 싶단 생각은 했지만 부담이 컸다. 다 처음이고, 될지 안 될지도 모르겠고, 납기를 맞추겠다고는 해놨고 후반부엔 매일 밤, 주말 내내 씨름을 했다.(웃음) 레이턴시(지연시간)도 없고 안정적으로 잘 돌아가는 듯 해서 이제 한숨을 돌린 상황”이라고 했다.

AI 기사 추천 시스템을 개발한 서영빈 동아일보 기자가 지난 13일 본보와 인터뷰에서 작동 원리를 설명하고 있다. 취재기자가 데이터 저널리즘 등이 아니라 AI 개발을 직접 한 사례는 찾아보기 어렵다.


지난해 이직 후 경제부에 6개월을 있었고 연말 디지털부서(디프런티어센터)로 발령난 후 동료들과 식사 자리에서 ‘회사 사이트에 콘텐츠 추천 시스템이 필요한데 해결이 안 되고 있다’는 얘길 들은 게 시작이었다. 결국 번복했지만 당시 네이버는 언론사들에 4월부터 ‘아웃링크’ 선택권을 준다고 했고, 이쪽으로 가닥을 잡던 회사로선 자사 플랫폼 독자를 위한 대응이 급한 시점이었다. AI 공부를 해오던 기자는 덜컥 “솔루션을 낼 수 있을 것 같다”고 했고 “테스트 페이지를 후다닥 만들어 보고를” 한 게 채택이 됐다. 미디어그룹 내 개발자들은 여타 프로젝트로 바빴고, 일은 그의 몫이 됐다.


그렇게 개발자 일상으로 3개월, 뉴스 하단부에 12개 추천기사를 띄워주는 서비스가 동아닷컴 웹, 모바일 페이지에 걸렸다. 인간의 언어로 쓰인 기사를 기계는 이해하지 못한다. 이에 기사를 ‘50개 숫자 나열로 이뤄진 행렬’ 또는 ‘좌표 위 점’으로 바꿔 기계가 읽을 수 있게 하는 ‘임베딩’ 기술이 사용된다. 큰 입체공간 내에 기사가 각각 고유한 좌표값을 갖고 퍼져 있는 형태를 상상하면 된다. 이때 의미가 유사한 기사일수록 가까이 위치하는데 이 거리를 계산해 ‘독자가 방금 읽은 기사’와 유사한 기사 6개를, 또 그동안 이용자가 읽은 기사들의 좌표값 평균을 계산해 주로 머무는 곳, 즉 ‘일반적인 관심사와 가까운 기사’ 6개를 추천하는 식이다.


복잡한 과정 같지만 정말 어려운 부분은 예상 밖, 실제 서비스가 잘 돌아가게 하는 문제였다. “기사 하나가 50차원 벡터이고 추천기사 풀이 1000개만 돼도 서버 부하가 엄청날 수 있는데 1분에 5000명에게 양질의 퀄리티를 유지하며 서비스 할 수 있는가”가 관건이었다. “그냥 모델 개발도 쉽지 않았는데 서버 개발까지 하며 좌초 위기가 있었어요. 이론이라면 좋은 모델을 추천하고 ‘트래픽은 과제로 남는다’ 하면 되는데 그럴 수 없잖아요. 개발자 친구는 ‘그거까지 너가 하면 망한 거’라고 하더라고요.(웃음) 최대한 간결한 시스템을 만드는 건 해본 적도 없어서 챌린징 한 부분이고 그래서 뿌듯했어요. 다행히 후반부 로드밸런싱(부하 분산)엔 동아닷컴 개발자분들이 도와주셔서 마무리할 수 있었습니다. 영역이 달라 소통이 힘든 면이 있었는데 핑계로 충정로 사옥에도 많이 갔고요.”


AI 프로그래밍을 했지만 1989년생 기자는 원래 데이터 저널리즘에 전문성을 갖춘 인력이다. 대학 전공은 교육학이고 홍대에서 밴드를 하다 기자생활을 시작, “살아남을 길을 찾다가” “언론사에서 한두 명 정도 필요한 사람이 될 수는” 있겠다는 생각에 분야를 정하고 노력해왔다. 2018년 뉴스1 입사 후 세종 주재 기자로 기획재정부, 통계청 출입을 하며 코딩·수학을 배운 게 출발이었고, 2021년 연합인포맥스로 옮겨 연기금 투자 동향을 살피는 부서, 빅데이터 뉴스부를 겸직하며 길을 다졌다. 이 기간 문재인 정부 고용통계가 부풀려졌다는 이슈를 파고든 ‘전일제 환산 취업자 추정 및 분석’(한국경제연구원) 용역보고서에 참여해 주도하기도 했고, ‘탈코르셋 운동’이 통계로 처음 확인된 ‘92년생, 82년생, 72년생, 62년생, 52년생 김지영’ 보고서로 통계청 빅데이터 분석활용대회에서 수상하기도 했다.


이번 작업을 “데이터 저널리즘을 잘 하기 위한 연습”으로 보는 그는 올 하반기 추천 알고리즘에 PMI모델(유튜브처럼 방금 본 기사를 읽은 다른 이용자가 가장 많이 읽은 다른 기사를 추천해주는 방식)을 추가하기 위해 작업 중이다. 회사는 ‘지금 존재하는 모든 서비스를 AI 관점에서 다시 비저닝 하라’는 목표도 줬다. “데이터 저널리즘을 제대로 하려면 끝엔 AI가 있다고 생각했어요. 어차피 주말에 하던 공부인데 근무시간에 다른 걸 안 하고 제가 좋아하는 일만 한 자체가 보상이었고요. 이번 경험으로 할 수 있는 게 엄청 늘어났는데 ‘데이터 저널리즘’, ‘기술을 쉽게 설명해주는 기사’, ‘언론과 AI를 연결한 웹 콘텐츠’란 제 역할에 충실하면서 생성형 AI를 통한 여러 변화 가운데 언론사만 할 수 있는 걸 고민해 보려 합니다.”

최승영 기자의 전체기사 보기

배너

많이 읽은 기사