저널리즘 속에 들어온 데이터

최새미 최새미 외 1명
저널리즘 속에 들어온 데이터
로봇 기자와 댓글 관리 봇의 등장

Editor's Comment 

눈 깜짝할 사이에 기사 한 편을 완성해 내는 로봇 기자의 등장 배경에는 데이터가 있습니다. 컴퓨터가 데이터를 보고 문장을 만들어낼 뿐 아니라 기사의 분위기까지 선택할 수 있어 그날의 독자 선호도 반영되지요. 특히 스포츠 중계, 날씨 정보와 같이 데이터가 빠르게 발생하는 분야에서 활약이 돋보입니다. '데이터과학과 저널리즘의 만남 - 워싱턴포스트의 변신'의 첫 번째 미리보기를 통해 워싱턴포스트가 시도하는 변화와 그 등장 배경을 소개합니다.

전문이 실린 디지털 콘텐츠는 4월 26일(목) 오후 5시까지 할인된 가격으로 예약 구매하실 수 있습니다. [바로 가기]
* 상단 이미지 ©Curtis Macnewton/Unsplash
2018년 3월 19일, 미디어를 위한 빅데이터와 인공지능 협회는 2018 글로벌 비기스BIGGIES 컨퍼런스(이하 비기스)를 주최했습니다. 개최 7년 만에 이 시상식에는 40여 명의 연설자와 수십 개의 출판사, 방송사, 웹사이트, 광고 에이전시 등이 참석하면서 성황리에 막을 내렸습니다.

 

비기스는 일반 산업군이나 기업의 컨퍼런스와 달랐습니다. 오히려 학회와 비슷한 모습이었습니다. 미디어 관련 회사를 대상으로 하는 국제 컨퍼런스였지만, 사례 공유와 연설, 기업투어에 그치지 않고 2017년 한 해 동안 각 미디어 회사가 개발하고 배포한 프로그램, 리포트 등을 접수하였습니다.

 

또한 논문처럼 깔끔한 영어 설명을 요구했고, 이를 제출할 수 있는 플랫폼이 있었습니다. 어떤 분야에는 프로그램이 제대로 돌아가는지 확인하는 절차도 있었습니다. 이들 제출물을 대상으로 데이터 분석, 전략, 프로그램 등 데이터와 관련한 12개 분야의 시상식인 2018 글로벌 비기스 어워즈2018 Global BIGGIES Awards가 마련됐습니다.©2018 Big Data For Media미국 뉴욕에 위치한 마이크로소프트 기술센터에서 진행된 이 시상식에서는 다양한 데이터 기반기술을 적용한 전 세계 미디어 기업의 활동이 공개됐습니다. 총 39개 기업이 수상했습니다.

그중 가장 돋보이는 수상자는
바로 워싱턴포스트였습니다

워싱턴포스트는 자체적으로 기사를 공급하는 헬리오그라프Heliograf와 댓글을 분석하는 모드봇ModBot으로 각각 로봇 활용 분야, 인공지능 분야에서 1등을 기록했습니다.

 

협회는 헬리오그라프에 대해 "워싱턴포스트는 기사 자동 생성을 성공적으로 도입한 회사는 아니지만, 문장 예제나 설명이 설득력이 있다"며 "생성 결과도 인상적이다"라고 평가했습니다. 또 모드봇에 대해서는 "미디어 업계에 중요한 문제인 댓글에 대한 집중적인 해결책"이라고 말하기도 했습니다.

로봇 기자, 무엇을 어떻게 쓰나
댓글 관리 봇, 무엇을 어떻게 읽나

워싱턴포스트의 헬리오그라프는 우리나라에도 여러 번 소개된 로봇 기자입니다. 2016년 리우 올림픽 뉴스를 다루기 위해 최초로 도입된 자동 스토리텔링 시스템이지요.* 워싱턴포스트가 자체 제작한 이 로봇 기자는 워싱턴포스트의 트위터를 통해 처음으로 기사를 내보냈습니다. 짤막한 여러 문장으로 구성된 기사였습니다.

* 관련 기사: The Washington Post experiments with automated storytelling to help power 2016 Rio Olympics coverage (워싱턴포스트, 2016.8.5)

 

당시 워싱턴포스트의 전략 이니셔티브 디렉터였던 제러미 길버트는 "데이터와 머신러닝의 힘으로 얻은 더 많은 이야기들"에 기대감을 보이며 "더 개인화된 뉴스 경험을 제공할 수 있을 것"이라고 밝혔습니다.©Markus Spiske/Unsplash실제로 헬리오그라프의 성적이 대단한데요. 2016년 도입 이후 1년간 워싱턴포스트의 기사는 양적으로 10배 증가했고, 클릭 수는 7배 증가했습니다.

 

로봇 기자는 데이터를 기반으로 기사를 쓰기 때문에 실시간으로 데이터가 발생하는 날씨, 스포츠 중계, 증권 시황 기사 작성이 가장 적합합니다. 하지만 단순히 데이터를 전달하는 데 그치지 않고 데이터의 '상황'에 따라 기사의 논조를 결정하기도 합니다.

 

워싱턴포스트의 모드봇은 머신러닝 기술을 이용해 데이터를 기반으로 학습하고, 어떤 결정이 좋을지 예측하는 시스템 혹은 알고리즘입니다. 댓글을 실시간으로 모니터링하고, 댓글 정책에 따라 욕설이나 음란물 여부를 판단하여 신고하거나 삭제하기도 합니다.

 

머신러닝에서는 문장과 단어의 조합을 데이터로 보는데, 댓글은 다수의 사람이 발생시킨 경험적 데이터이기 때문에 이를 토대로 학습을 진행합니다. 물론 처음에는 허용하는 댓글과 그렇지 않은 댓글을 사람이 구분해 주는 절차가 있습니다.

데이터 X 미디어, 새로운 비즈니스 모델이 되다

그럼에도 분명한 것은 데이터과학은 미디어에서 빼놓을 수 없는 새로운 비즈니스 모델의 중심이 되었다는 점입니다. 지난 10년간, 미디어는 급변했습니다. 생존 위기와 도약을 겪으며 거대한 변화의 파도를 탔지요. 아마존 최고경영자 제프 베조스의 워싱턴포스트 인수 이후, 세계의 미디어가 생존을 위해 가장 두드러지게 시도했던 변화는 데이터를 저널리즘 속으로 들여왔다는 점입니다.

 

2018 비기스 어워즈에서 이 점을 더 명확히 알 수 있었는데요. 호주의 거대 미디어 기업인 페어팩스 미디어Fairfax Media는 각종 데이터를 통합하고 인터페이스를 구축하여 영업 담당자가 데이터에 접근할 수 있게 했습니다. 이는 매우 긍정적 효과를 거두었고 비기스 어워즈의 데이터 기반 비즈니스 효율성 부문에서 1등을 수상했습니다.

 

자연어 처리 분야에서는 스위스의 리니에Ringier가 독자 몰입도를 높이고 타깃 광고 효과를 높인 결과로 1등을 기록했는데요. 이와 비슷한 우리나라의 사례로는 데이블Dable이 있습니다. 사용자의 행동 패턴과 피드백에 반응하는 머신러닝 기법을 적용해 개인별 맞춤형 광고나 콘텐츠를 제공하는 서비스인데요. 뉴스 추천의 경우 데이블을 이용한 언론사의 개인당 페이지뷰가 모바일에서 20%가량 증가, 클릭률은 25%가량 증가하는 성과가 드러났습니다.

 

페어팩스 미디어가 각종 영업에 필요한 데이터를 관리하는 플랫폼을 만들어 직접적으로 비즈니스 모델에 적용했다면, 리니에나 데이블은 사용자가 행동하는 패턴을 파악해 간접적인 비즈니스 모델을 발굴한 셈입니다.

문과 출신도 쉽게 이해하는 데이터과학

미디어에 최신 기술이 적용되면 새로운 형태의 콘텐츠 개발이 가능해집니다. 연결망과 알고리즘을 이용하면 콘텐츠를 효과적으로 확산시킬 수도 있습니다. 워싱턴포스트의 혁신사례를 살펴보고 실제로 도입하고자 한다면, 이 리포트를 통해 데이터를 이해하고 기술 언어에 한 발짝 가까이 다가설 수 있을 것입니다. 앞으로 미디어 업계에 종사하려면 기술을 반드시 이해해야 한다고 해도 지나치지 않습니다.

데이터과학의 기본 개념*
"수, 영상, 단어 등의 형태로 된 의미 단위", "정보와 구분되는 개념"
* 출처: 위키피디아

하지만 이렇게 보니 데이터가 무엇을 의미하는지 모호하게 다가올 수도 있습니다. 언론에서, 주변에서 늘 빅데이터와 머신러닝, 딥러닝을 이야기하는데 '어떤 최신 데이터 기술'이라는 것, 배우면 좋을 것, 어쩌면 수년 내에 직업을 빼앗을 것 정도로 추상적인 느낌이 드는 것도 사실입니다. (최종 리포트에서는 미디어에 적용된 데이터과학에 대해 기본적인 개념과 구체적 사례를 살펴보고, 각 사례에 적용된 공학적 작동 방식을 안내하고자 합니다.)©Ricardo Gomez Angel/Unsplash데이터의 개념과 사례를 살펴보고, 데이터가 미디어에서 어떻게 정의되고 사용되는지 알아보겠습니다. 우선 이미 발생한 경험적 데이터의 성격을 분석합니다. 이를 통해 미래의 데이터를 분류하는 판단 기준을 만드는 모델, 이 일련의 과정을 가리키는 머신러닝을 적용합니다.

 

2017년의 댓글을 토대로 2018년의 댓글을 분류하는 작업을 예로 들겠습니다. 2017년 댓글은 트레이닝 데이터, 2018년에 새로 발생한 댓글을 테스트 데이터라고 부릅니다. 트레이닝 데이터를 살펴보니 어떤 댓글은 욕설로 차단을 당했고, 어떤 댓글은 선플로 많은 호응을 받았다는 것을 알 수 있었습니다.

 

차단을 당한 욕설에 들어간 단어 집합을 뽑습니다. 그리고 특정 단어가 욕설인지 아닌지 임의로 판단합니다. 예를 들어 '어이쿠'가 욕설로 평가된 단어 집합에 대체로 포함됐다면 '어이쿠'를 기준으로 악플과 선플을 나누는 모델이 만들어집니다. 그리고 2018년의 테스트 데이터에 위 모델을 적용하여 악플과 선플 여부를 결정합니다. 아주 간단한 머신러닝의 사례입니다.

 

또한 최종 리포트에서는 이들 데이터과학의 기본 개념을 토대로 나아가 미디어에 주로 적용되는 데이터 기반 기술 두 가지 등을 중요하게 다룰 예정입니다.

  • 추천 알고리즘: 사용자가 좋아하는 콘텐츠 혹은 광고를 추천하는 알고리즘
  • 로봇 저널리즘: 자동 기사생성 시스템

그리고 이 기술을 토대로 실제 기업에서는 어떤 연구를 하고 있는지, 어떻게 수익창출을 하고 있는지 검토하겠습니다. 나아가 미디어 테크놀로지로의 변신을 꾀하는 기업에 기술자와의 협업은 어떻게 만들어가야 할지 협업 방안을 함께 고민합니다.

 

예를 들어 워싱턴포스트는 데이터 기반 기술을 가장 성공적으로 미디어에 접목했다고 평가받고 있습니다. 이들 데이터과학자가 미디어 기업을 택한 이유는 무엇일까요? 또 화성과 목성만큼이나 멀게 느껴지는 기자, 에디터와 기술자 사이의 협업 노하우는 무엇일까요? 인터뷰를 통해 현장의 모습을 전달하겠습니다.

 

[데이터과학과 저널리즘의 만남 - 워싱턴포스트의 변신]

 

머신러닝, 인공지능, 데이터과학. 그동안 자주 들어봤지만 추상적으로 느껴지셨다고요? 본 리포트에서는 미디어에서 이들 데이터 기반 기술이 어떻게 활용되는지, 실제 작동 원리는 어떠한지, 어떤 가능성을 끌어낼 수 있는지 확인합니다. 나아가 데이터 기반 기술을 적극적으로 도입하려는 미디어가 어떻게 '기술자'와 협업을 해나가야 할지 워싱턴포스트가 시도하는 변신을 통해 보여드립니다.

최새미
최새미 스타트업 메이코더스 대표

동아사이언스 과학기술분야 기자를 거쳐, 컴퓨터공학 대학원에서 융합 분야인 생물정보학을 공부하며 데이터과학의 가능성을 확인했습니다. 과학기술 및 미디어 분야 서비스 기획개발 스타트업인 '메이코더스'를 창업했습니다. 데이터모델링, 데이터시각화와 관련된 논문을 썼고, 관련 지식을 이용해 플랫폼을 구축하고 실생활 문제를 해결하는 신사업을 설계 중입니다. 

김시현
김시현 에디터

대학원에서 Art & Technology에 대해 연구합니다. 주로 딥러닝과 데이터 관련 작업을 하며 미디어 아티스트, 영상 PD로 활동하고 있습니다. 디지털 콘텐츠에 깊은 애정을 품고 있으며, 정보의 비대칭을 해소하는 데에 신경을 쏟는 중입니다.