PUBLY 멤버십 — 일하는 사람들의 콘텐츠 구독 서비스

한 달에 책 한 권 가격으로 모든 콘텐츠를 만나세요

멤버십 더 알아보기
#6

특별 기고(2) 대화의 기술

특별 기고(2) 대화의 기술

질주하는 기술, 뒤쫓는 사람들, 기어가는 브랜드

2017년 12월, 구글은 타코트론2(Tacotron2)라는 프로젝트*의 성과를 발표했다. 언뜻 보면 우리가 ARS를 통해 흔히 듣는 TTSText to Speech 음성변환기술에 불과한 것 같지만, 구글의 강력한 인공지능 신경망을 기반으로, 의미에 따라 억양이나 발음이 달라지는 등 놀랍도록 자연스럽다.

* 관련 페이지: 타코트론2 음성 샘플 테스트

 

예를 들어, 같은 문장이어도 강조하는 의미에 따라 억양이 달라지는 경우: 

나는 그 가게에서 햄버거가 먹고 싶었어.
나는 가게에서 햄버거가 먹고 싶었어.

그리고 문맥상 위치와 문법적 차이에 따라서도 같은 단어지만 발음이 달라지는 경우:

He thought it was time to present the present.
- 같은 present라는 단어지만, 동사와 명사일 때 억양 차이가 있다.

컴퓨터가 사람의 목소리로 글을 읽게 하는 기술인 TTS 영역에서, 구글의 타코트론2는 이런 뉘앙스와 발음의 차이 등도 무리없이 표현해 내어 사람들이 실제로 말하는 것과 같은 '자연어'에 한 발 더 가까이 다가갔음을 보여주었다.

 

최근 일본에서는 머신러닝 알고리즘이 사람들이 보았거나 기억하는 즉, 우리 머릿 속에 들어 있는 이미지를 뇌의 MRI 신호로 다시 그려내는 기술이 발표*되었다. 이처럼 공상과학 영화에서나 보던 기술이 여기저기서 개발되고 있지만, 일반인에게 딥 머신러닝 기술은 아직도 구글이나 연구실의 과학자만 보는 먼 이야기 같이 느껴지게 마련이다. 

* 관련 기사: Artificial Intelligence Recreates Images From Inside The Human Brain (IFLS, 2018.1.3)

 

하지만 지난달 레딧(Reddit)을 휩쓴 딥페이크(DeepFakes)라는 스레드(Thread)를 보면 더 이상 인공지능은 알파고 같이 범접할 수 없는 로봇이 아니라는 것을 느낄 수 있다. 페이크앱(FakeApp) 이라는 인공지능 앱을 통해, 컴퓨터 사양만 받쳐주면 그 어떤 비디오에도 다른 사람의 얼굴을 자연스럽게 입힐 수 있게 된 것이다. 앱 출시 불과 2주 만에 저급 19금 포르노 영상에 유명 할리우드 배우의 얼굴을 합성한 결과물들이 경쟁하듯 올라오고 있다.

 

 

배우 니컬러스 케이지의 얼굴을 아무 데나 뜬금없이 합성한 위 영상처럼 웃긴 것도 많지만, 중요한 점은 대부분 영상이 합성을 구분하기 어려울 정도로 자연스럽다는 것이다. 푸틴의 얼굴을 가짜로 합성한 뉴스 영상, 트럼프의 얼굴을 합성한 포르노 증거 영상 등 무궁무진한 가능성에 레딧 커뮤니티가 열광하고 있다.

 

PUBLY 멤버십에 가입하시고, 모든 콘텐츠를 읽으세요.

이런 콘텐츠는 어떠세요?

멤버십 더 알아보기