'김건희와 주가조작 챗봇' 개발기

[이슈 인사이드 | 데이터] 변지민 뉴스타파 데이터개발팀 기자

변지민 뉴스타파 데이터개발팀 기자

뉴스타파는 2월28일 온라인에 챗봇 서비스를 공개했다. ‘뉴스타파 챗봇-김건희와 주가조작’(이하 ‘김건희 챗봇’)은 김건희 여사의 도이치모터스 주가조작 연루 의혹에 대해 뉴스타파가 보도한 내용을 바탕으로, 인공지능(AI)를 이용해 사용자의 질문에 대답하는 서비스다. 올해 초 기획해서 두 달에 걸쳐 개발했다. 뉴스타파 데이터개발팀에 소속된 나는 챗봇 제작을 맡았고, 전기환 개발자가 프론트엔드 일부를 맡았다. 심인보, 박상희 기자가 데이터셋 제작에 참여했다.

김건희 챗봇을 제작한 이유는 뉴스콘텐츠 분야에서 채팅 형식의 양방향 정보 전달이 얼마나 효과적일 수 있는지 탐색해보기 위해서다. 챗GPT 등 AI 기술이 검색과 콘텐츠 생산 방식을 바꾸고 있지만, 아직 언론에 미치는 영향은 제한적이다. 틈새를 노릴 여지가 있을까? 실험해보고 싶었다.

김건희 챗봇은, 쉽게 말해 챗GPT가 사용자의 질문과 뉴스타파의 정보를 조합해 답변을 생성하도록 만든 모델이다. 이런 방식을 검색증강생성(RAG)이라고 한다. 팀 내부에서 챗봇을 만들어 보자는 아이디어는 2023년 중순부터 있었지만 ‘뭘 만들지?’가 숙제였다. 챗봇은 ‘궁금한 게 있는 사람이 질문하는’ 플랫폼이다. 기사를 만들 때와 접근 방식이 달라야 했다.

반년 넘는 고민 끝에 김건희 여사의 주가조작 연루 의혹을 택했다. 사람들의 관심이 큰데, 내용이 복잡해 이해하기 어려웠다. 궁금증이 생길 만한 주제라고 봤다. 뉴스타파가 최초로 보도했고 5년 가까이 이슈를 주도하며 고유한 데이터가 쌓여있다. 앞으로도 최소 수년간 지속될 이슈다. 경쟁력과 가성비가 있다고 봤다.

개발에 들어가면서 가장 중요하게 생각한 점은 할루시네이션(환각) 최소화다. 챗봇은 없는 내용도 마구 지어내는 특징이 있다. 뉴스타파가 만든 챗봇은 특정인을 비판하는 내용이 담겨있고 사소한 오류도 용납되기 어렵다. 윤리적, 법적 리스크가 큰 편이다. 첫째도 둘째도 환각 최소화로 목표가 맞춰졌다.

수많은 시행착오 끝에 몇 가지 방법이 환각을 줄이는 데 효과가 있다는 사실을 알게 됐다. 첫째는 Q&A 데이터셋이다. 예상 질문과 답변을 많이 만들어 두는 것이다. 단순히 기사와 자료에서 검색하는 것보다, Q&A 데이터셋에서 검색하는 편이 더 정확도가 높았다. 둘째는 정의(definition) 데이터셋이다. 챗봇은 ‘김건희’가 사람 이름이라는 사실도 헷갈릴 때가 있었다. 놀랍도록 똑똑한데 놀랍도록 멍청한 게 AI라는 사실을 알게 됐다. 인물과 사건에 대한 명확한 개념을 주입했다. 이런 데이터를 준비하는 데 오랜 시간이 걸렸다.

다소 강압적인 ‘규제’ 방식도 적용했다. 김건희 여사의 주가조작 연루 의혹과 관련이 없고 명예훼손으로 이어지기 쉬운 질문은 답변을 회피하도록 했다. 뉴스타파 기사에 포함된 내용에 대해서만 답변하도록 AI에게 강한 규제 명령도 했다. 그밖에도 핵심정보 강제주입, 혼합검색 등 몇 가지 로직을 실험하며 효과가 있다는 사실을 발견했다.

‘환각 최소화’에 목표를 집중하다보니 답변이 그리 유창하지도, 흥미롭지도 않은 문제가 생겼다. 만든이를 닮아 소심한 챗봇은 크게 유행하지 못했다. 다만 오픈 뒤 두 달이 되도록 치명적인 오류가 발견되지 않았다는 사실은 만족스럽다. 안정성이 어느 정도 확보됐으니 이제 유효성을 높일 차례다. 긴 실험이 될 것이다.

챗봇은 오픈 초기 하루 1000명 정도 사용했으나 이후 많이 줄었다. 그래도 두 자릿수로 꾸준히 사용자가 있고, 총선 뒤에는 사용자가 늘었다. 사용자로부터 받은 가장 긍정적인 반응은 “사건을 이해하는 데 도움이 됐다”는 것이다. 빅테크 기업의 챗봇 서비스와 비교하면 조악한 수준이지만 잘 가꿔보려고 한다. 혹시 알까? 언젠가 언론의 영역을 확장한 새로운 실험으로 기억될지.

변지민 뉴스타파 데이터개발팀 기자의 전체기사 보기

배너

많이 읽은 기사