미디어 테크놀로지의 핵심, 데이터 기반기술

Editor's Comment

데이터는 미디어에 어떤 영향을 미칠까요? '데이터과학과 저널리즘의 만남 - 워싱턴포스트의 변신'의 두 번째 미리보기를 통해 데이터 과학이 등장하게 된 배경과 워싱턴포스트가 데이터를 다루는 방법에 대해 소개합니다.

전문이 실린 디지털 콘텐츠는 6월 12일(화) 오후 5시까지 예약 구매하실 수 있습니다. [바로 가기]
* 상단 이미지 ©NASA/Unsplash

IT 기술이 데이터를 다루면서, '빅데이터'라는 말이 너무나 익숙하게 들려옵니다. 심지어 빅데이터라는 표현을 더는 쓰지 않기도 하지요. 사람 한 명이 온라인 쇼핑몰에서 수백 건의 결제를 발생시키고, 문자메시지를 주고받으며, 페이스북에 콘텐츠를 올려 다양한 데이터를 만들어 냅니다.

요컨대 지금의 IT는
데이터를 저장, 통신, 분석하며
이 모든 행위를 가능케 하는 시스템을
만들어내고 있습니다

이해를 돕기 위해 데이터의 단위를 간단히 짚고 넘어가겠습니다. 숫자 하나 혹은 알파벳 한 글자는 1바이트(byte), 한글은 2바이트를 차지합니다. 최초의 8인치 플로피디스크의 용량은 80킬로바이트(kilobyte)로, 겨우 한글 40,000자 정도 수준입니다. '데이터과학과 저널리즘의 만남 - 워싱턴포스트의 변신' 원고의 절반이나 들어갈까 싶은 용량입니다. 작은 사진 한 장을 담기도 버거울 겁니다.

그래픽: 김영미

데이터가 쌓이면서 저장 기술이 발전하기 시작했습니다. 어쩌면 문자를 쓰기 시작한 초기 인류부터 쌓인 것일지도 모르겠습니다. 데이터양이 많아지면서 메가바이트, 기가바이트라는 개념도 등장했습니다. 메가는 '100만', 기가는 '10억'을 뜻하지요. 아득한 숫자처럼 보이지만 요즘은 작은 스마트폰에도 128기가 정도의 용량이 내장되어 있습니다. 얼마나 많은 데이터가 저장되고 있는지 실감조차 나지 않습니다.

 

이 정도로도 빅데이터라 부르기엔 부족합니다. 빅데이터는 더욱 엄청난 양의 데이터를 의미하거든요. 테라(1조), 페타(1000조)를 넘는 데이터를 처리하기도 합니다. 개인 컴퓨터에서는 관리할 수 없으며 거대한 중앙 서버 컴퓨터나 클라우드 컴퓨터가 이런 데이터를 보관하고 관리합니다.

 

이윽고 데이터 과학이 등장했습니다. 엄밀히 말하면 데이터를 포괄적으로 다루기 위한 기술 중 하나를 데이터 과학으로 보는 게 맞을 겁니다. IT는 데이터를 교환하기 위해 '통신'이, 수학 및 통계적 분석을 위해 '알고리즘'이, 데이터 저장 및 관리를 위해 '소프트웨어 공학'이 필요했습니다. 이들은 명확히 분리되지 않기에 중첩 영역을 두고 각각 데이터 엔지니어, 데이터 분석가, 데이터 과학자의 일로 다소 느슨한 정의가 이루어집니다.

 

첫 번째 미리보기에서 다룬 바 있는 2018 글로벌 비기스(BIGGIES) 컨퍼런스(이하 비기스)로 가보겠습니다. 수상 분야에 오른 이름을 살펴보면 데이터와 미디어가 결합한 비즈니스 영역이 눈에 들어옵니다. 비기스에서 제시한 영역은 데이터에 기반을 둔 분석, 전략, 광고, 비즈니스 프로세스 효율성, 제품 개발, 봇 활용을 비롯해 데이터 처리 기술, 데이터 기반 프로젝트, 인공지능, 자연어 처리, 예측 분석 사용 등 총 12개에 달하는데요.

 

이 분야들은 빅데이터 전략을 수립하고 데이터 분석 및 인공지능을 활용하며 수익을 창출하고자 하는 미디어 기업을 대상으로 한다는 비기스의 소개 글에도 적절히 부합합니다. 즉, 미디어가 직면한 수익 창출 문제를 해결하는 요소로 데이터 기반기술을 꼽고, 각각을 비즈니스 모델로 연결해 낸 분야를 선정한 것입니다.

그래픽: 김영미

이들을 데이터 기반기술 벤다이어그램을 토대로 분석해보겠습니다. 예를 들어 '데이터 분석'은 데이터 통신과 수학 및 통계적 분석을 위한 알고리즘이 융합된 분야로, 데이터 분석가와 데이터 과학자의 영역입니다. '데이터 전략'은 데이터 분석가 또는 데이터 과학자가 얻은 분석 결과를 바탕으로 비즈니스 인사이트를 도출하는 것이죠. '데이터 기반 광고'는 데이터 통신, 수학 및 통계적 분석을 위한 알고리즘, 소프트웨어 공학 모두가 융합된 영역으로 이해할 수 있습니다.

 

하지만 수상 영역으로 분류해 데이터 기반기술을 파악하려고 해도 어려움이 생깁니다. 봇 활용, 인공지능, 자연어 처리, 예측 분석과 같은 영역에는 어떤 기술이 적용되는 것인지 단숨에 알기가 힘들기 때문입니다. 데이터가 무엇인지, 데이터를 처리하거나 분석한다는 것이 어떤 의미인지, 알고리즘이 어떻게 작동하는지 등 아직은 용어가 생소하다는 이유가 큽니다.

미디어 테크놀로지 기업으로 발돋움한 워싱턴포스트

데이터 X 미디어 영역에서 자연어* 처리가 특별한 비즈니스 영역으로 다뤄지는 현상은 놀랍지 않습니다. 미디어는 언어로 콘텐츠를 만들고 소통하니까요. 자연어를 얼마나 잘 분석하고 만들어내는지가 미디어 사용자 경험을 확장시킬 수 있습니다.

* 자연어(自然語) 혹은 자연 언어는 사람들이 일상적으로 쓰는 언어를 인공적으로 만들어진 언어인 인공어와 구분하여 부르는 개념이다. (출처: 위키피디아)

 

특히 데이터를 자연어로 재생산하면 '로봇 저널리즘'을 실현할 수 있습니다. 로봇 저널리즘은 자동 기사 생성 시스템이 적용된 기사 혹은 미디어를 가리킵니다. 데이터만 있다면 기사를 만들 수 있습니다. 지금까지는 스포츠, 금융 분야에 주로 적용되었으나 데이터가 빠르게 발생하는 분야라면 로봇 저널리즘을 적용하기 유리합니다.

* 빅데이터 기술 적용 사례

스포츠: 선수 부상 예측, 상대 팀 전술 파악
금융: 주가지수 예측, 거시 변수 예측
정치: 소셜 데이터를 통한 맞춤형 캠페인
의료: 인간 게놈 데이터로 희귀병 치료
기상: 날씨 분석을 통한 선호 제품 예상
의류: 유행 디자인 사전 파악
복지: 자살 예보 시스템, 노년층 의료 개선
공공: 부정부패, 세수 증감 데이터 분석
* 출처: 매일경제 기획팀⋅서울대 빅데이터 센터, <빅데이터 세상: 당신의 숨겨진 욕망까지 읽어드립니다>(2014)

위와 같이 데이터가 빠르게 발생하고, 분석 결과까지 나오는 영역에서는 로봇 저널리즘, 로봇 기자 혹은 인공지능 기자가 활발히 활동할 수 있습니다.

 

가장 대표적인 로봇 기자는 바로 워싱턴포스트의 헬리오그라프(Heliograf)입니다. 2016년 리우 올림픽 뉴스를 다루기 위해 최초로 도입한 헬리오그라프는 문장 틀에 데이터를 끼워 넣는 기존 방식과 달리 자연어를 직접 생성해내는 특징이 있습니다. 헬리오그라프는 댓글 관리 시스템인 모드봇(ModBot)과 함께 2018 글로벌 비기스 어워즈에서 수상했습니다.

헬리오그라프 &#169;워싱턴포스트

한 발짝 다가가서 보면 헬리오그라프와 모드봇이 단순한 자연어 처리, 데이터 통신, 구현으로 끝나지 않았음을 알 수 있습니다. 워싱턴포스트는 자체 콘텐츠 관리시스템(CMS)인 아크(Arc)를 개발했는데, 이 방대한 시스템은 헬리오그라프와 모드봇 모두를 품고 있습니다. 기자와 에디터는 글을 쓸 때 아크를 통해 헬리오그라프와 모드봇을 이용할 수 있습니다.

주목할 부분은 소프트웨어 공학을 통해
데이터 저장, 관리, 분석 등을
통합했다는 점입니다
또한 워싱턴포스트는 아크라는 통합 플랫폼을 새로운 비즈니스 모델로 삼아, 새로운 미디어 파트너와 공급 계약을 맺기 시작했습니다. (헬리오그라프와 모드봇, 아크에 대한 기술적인 내용은 최종 리포트에서 상세히 다루겠습니다.)

 

워싱턴포스트의 성공 비결은 미디어 테크놀로지 기업으로 전환함에서 찾을 수 있습니다. 워싱턴포스트는 140년 전통의 미국 유력 미디어였지만 2013년 심각한 경영난에 놓였습니다. 지난 10년간 광고 매출이 50%나 감소하고 신문 주간 발행 부수는 17%나 하락한 상황이었지요. 그런 워싱턴포스트를 아마존의 최고경영자 제프 베조스(Jeff Bezos)가 2억 5,000만 달러(한화 기준 약 2,730억 원)에 인수합니다.

워싱턴포스트 기술팀은 실리콘밸리와 경쟁한다.

- 제프 베조스

베조스는 기술자를 대폭 고용했고, 워싱턴포스트는 인수된 후 얼마 지나지 않아 로봇 기자, 사용자 데이터 활용, 데이터 시각화 등에서 탁월한 발전을 보였습니다. 모바일 환경에 최적화된 콘텐츠 제작도, 소셜미디어 활용도 돋보였지요.

 

2015년, 워싱턴포스트는 인수 3년 만에 월간 사이트 방문자 수가 6,700만 명을 넘어섰습니다. 처음으로 뉴욕타임스를 추월한 것입니다. 그리고 2018년 1월 약 9,090만 명의 방문자 수를 기록해 뉴욕타임스와 미국 CNN에 이어 최상위권에 머물면서 위상을 이어가고 있습니다.

* 관련 기사: The Post records 90.9 million unique visitors in January 2018 (워싱턴포스트, 2018.2.14)

 

워싱턴포스트의 변화는 국내 미디어가 취해야 할 전략을 제시하기도 하지만 국내 사정은 조금 다릅니다. 지난 수년간 뉴스를 생산하는 언론사와 유통을 전담하는 네이버, 카카오, 페이스북 플랫폼의 역할이 고착화됐습니다. 

 

각 언론사는 뉴스 홈페이지를 모바일 친화적으로 바꾸려고 노력했으나 외부 플랫폼의 유통 서비스를 이용할 수밖에 없는 한계에 부딪혔습니다. 한국언론진흥재단이 발표한 리포트에 따르면 '뉴스를 플랫폼에서 읽는 비율'이 전 세계 36개국 중 1위*로 나타났는데요. 전 세계 평균이 30%였고, 한국 평균은 77%였습니다.

* 관련 자료: 디지털 뉴스 리포트 2017 : 한국 (한국언론재단, 2017.10)

 

많은 시도와 실패, 성공이 번갈아 일어나는 가운데 한때 콘텐츠를 생산했던 미디어 종사자로서, 또 데이터 과학을 공부하고 실생활에 적용하려는 창업가로서 미디어와 데이터의 융합 영역에서 새로운 가능성을 발견하곤 합니다.

 

이는 IT서비스처럼 보이는 댓글 시스템, 댓글 정렬 알고리즘, 인공지능 추천 시스템 등이 콘텐츠를 기획하고 제작하는 역량을 끌어올리며 발전할 수 있다고 생각하기 때문입니다. 간단하게는 데이터를 분석해서 콘텐츠로 만드는 작업부터 워싱턴포스트의 아크처럼 소프트웨어 공학이 적용된 데이터 통합 플랫폼까지 말입니다.

 

이제 본격적으로 데이터 X 미디어의 기술적 내용을 다뤄볼 텐데요. 먼저 데이터 과학에 대해 알아보겠습니다. 머신러닝과 인공지능은 최근 가장 빈번하게 거론되지만 정확한 개념 정의가 무엇인지, 어떻게 구현되는지 이해하기 어려운 분야입니다. 데이터 과학의 발전 과정부터 실생활 사례를 들어 차근차근 살펴보겠습니다. (자세한 내용은 최종 리포트에서 이어집니다. 다양한 분야에서 비즈니스 모델을 모색 중인 미디어에 유용한 아이디어가 되길 바랍니다.)

 

[데이터과학과 저널리즘의 만남 - 워싱턴포스트의 변신]

 

머신러닝, 인공지능, 데이터과학. 그동안 자주 들어봤지만 추상적으로 느껴지셨다고요? 본 리포트에서는 미디어에서 이들 데이터 기반 기술이 어떻게 활용되는지, 실제 작동 원리는 어떠한지, 어떤 가능성을 끌어낼 수 있는지 확인합니다. 나아가 데이터 기반 기술을 적극적으로 도입하려는 미디어가 어떻게 '기술자'와 협업을 해나가야 할지 워싱턴포스트가 시도하는 변신을 통해 보여드립니다.