신속하고 정확한 로봇 기자

로봇 저널리즘은 뉴스 기사가 만들어지는 모든 과정에 컴퓨터 알고리즘이 관여해 사람의 손을 거치지 않고 기사를 자동으로 생성하는 방법과 이에 필요한 사회, 기술, 문화적 이슈를 다루는 연구 분야이다.

- 이준환, <알고리즘을 통한 스포츠 기사 자동 생성에 관한 연구>

LA타임스의 '쿼이크봇QuakeBot'이 2014년 3월, LA Westwood 지역에서 6km가량 떨어진 곳에서 발생한 지진을 사건 발생 30분 만에 보도했습니다.

 

* LA 쿼이크봇이 2014년 3월 발생한 지진을 알리는 트윗 ©earthquakes LA/Twitter

 

이후 오토메이티드 인사이트Automated Insight, 내러티브 사이언스Narrative Science 등 글 써주는 스타트업들이 언론사에 로봇 기자를 적극적으로 공급하기 시작했고, 워싱턴포스트는 자체적으로 로봇 기자를 개발하면서 로봇 저널리즘에 활기를 불어넣었습니다.

 

로봇 저널리즘은 기사를 만들기 위해 자연어 생성을 합니다. 이것은 지식이나 논리 형식 등 기계적으로 표현된 정보를 토대로 자연어를 생성하는 작업입니다. 데이터를 자연어로 변환하는 일종의 '번역' 과정으로 이해할 수 있습니다. 아마 자연어를 읽고 문장을 분리하고, 단어와 형태소를 알아내는 과정과 반대 작용이 일어나겠지요.

 

기계가 자연어를 이해하기 위해서는 잘못된 띄어쓰기나 오타를 없애는 과정이 필요합니다. 반대로 기계가 만들어낸 자연어를 인간이 잘 이해하려면, 자연어를 작성할 때 문법이나 실제 사람이 쓴 문장의 특징(작성한 단어 빈도, 단어 연관성, 문법적 배치 등을 포괄한)을 통계적으로 분석해 문장을 어떻게 작성할지 결정하는 과정이 필요합니다.

 

가장 간단한 자연어 생성의 형태는 바로 '폼 이메일'입니다. 어떤 포럼의 참석을 신청하는 웹페이지에서 이름, 이메일 주소, 전화번호를 입력창인 폼에 써서 제출하면 확인 이메일이 내 메일함에 도착하는 형태입니다.

"OOO님, 포럼에 신청해 주셔서 감사합니다. 입력하신 이메일과 전화번호로 참석 신청이 완료되었습니다."