질주하는 기술, 뒤쫓는 사람들, 기어가는 브랜드
2017년 12월, 구글은 타코트론2(Tacotron2)라는 프로젝트*의 성과를 발표했다. 언뜻 보면 우리가 ARS를 통해 흔히 듣는 TTS(Text to Speech) 음성변환기술에 불과한 것 같지만, 구글의 강력한 인공지능 신경망을 기반으로, 의미에 따라 억양이나 발음이 달라지는 등 놀랍도록 자연스럽다.
* 관련 페이지: 타코트론2 음성 샘플 테스트
예를 들어, 같은 문장이어도 강조하는 의미에 따라 억양이 달라지는 경우:
나는 그 가게에서 햄버거가 먹고 싶었어.
나는 그 가게에서 햄버거가 먹고 싶었어.
그리고 문맥상 위치와 문법적 차이에 따라서도 같은 단어지만 발음이 달라지는 경우:
He thought it was time to present the present.
- 같은 present라는 단어지만, 동사와 명사일 때 억양 차이가 있다.
컴퓨터가 사람의 목소리로 글을 읽게 하는 기술인 TTS 영역에서, 구글의 타코트론2는 이런 뉘앙스와 발음의 차이 등도 무리없이 표현해 내어 사람들이 실제로 말하는 것과 같은 '자연어'에 한 발 더 가까이 다가갔음을 보여주었다.
최근 일본에서는 머신러닝 알고리즘이 사람들이 보았거나 기억하는 즉, 우리 머릿 속에 들어 있는 이미지를 뇌의 MRI 신호로 다시 그려내는 기술이 발표*되었다. 이처럼 공상과학 영화에서나 보던 기술이 여기저기서 개발되고 있지만, 일반인에게 딥 머신러닝 기술은 아직도 구글이나 연구실의 과학자만 보는 먼 이야기 같이 느껴지게 마련이다.
* 관련 기사: Artificial Intelligence Recreates Images From Inside The Human Brain (IFLS, 2018.1.3)