빅데이터 포털의 문이 열리다

💡 10분 안에 이런 걸 알려드려요!

  • 일초라는 짧은 시간에도 수많은 데이터가 쌓이는 IT시대! 빅데이터 전문가가 아니라도 소비자로서 알아야 할 빅데이터가 우리 사회에 미치는 영향
  • 고객 구매 빅데이터를 기반으로 어떻게 성과를 올릴 수 있을까? 세그멘테이션? 리뷰vs평점? 다른 회사의 빅데이터 활용법
  • 알고 있는 사실을 '증명'하는 게 아닌 새로운 인사이트는 어디에? 빅데이터에서 인사이트를 뽑아내는 접근법
  • 빅데이터들은 어디에? 각종 빅데이터를 다운로드할 수 있는 빅데이터 거래소 리스트

*본 콘텐츠는 2021년 1월에 발간된 <빅데이터, 생활을 바꾸다>의 본문 내용을 퍼블리의 시선으로 발췌하여 구성하였습니다.
[콘텐츠 발행일: 2021.10.20]

2019년 과학기술정보통신부는 2021년까지 금융, 통신 등 10개 업종의 데이터 플랫폼과 41개 센터를 구축하겠다고 발표한 바 있다. 이에 따라 대기업, 공기업과 여러 벤처기업이 컨소시엄을 구성하면서 대대적으로 업종별 빅데이터 포털의 문이 열렸다. 그뿐만 아니라 지난 2020년 9월에는 추가경정예산을 통해 '데이터 댐' 프로젝트를 본격 추진한다고 밝혔다.

 

'데이터 댐' 프로젝트는 정부의 디지털 뉴딜 대표 과제 중 하나로 미국 대공황 시기의 후버댐 건설과 같은 효과를 얻기 위해 기획된 사업이다. 즉, 일자리와 경기 부양 효과에 더해 미래를 위한 투자와 각 분야의 혁신을 동시에 추진하는 것이다.

 

이러한 흐름에 발맞춰 정부와 민간이 협업하여 무형의 데이터에 값어치를 매기고 거래할 수 있도록 한 빅데이터 거래소가 동시다발로 등장하고 있다.

빅데이터 거래소는 과거에 정부기관과 기업이 데이터를 독점적으로 보유하고 사용했던 경험을 개선하여 그들이 더 많은 데이터를 개방하도록 돕기 위한 목적으로 만들어졌다. 많은 양의 데이터가 개방되면 더 많은 기관과 사람이 사용할 수 있게 되고, 기울어진 운동장과 같은 정보 불균형의 폐해를 극복해나갈 수 있을 것이다. 또한 시장을 통해 개방된 데이터를 과거보다 용이하게 얻을 수 있어 데이터 취득에 필요한 비용도 현저하게 낮아질 것으로 기대한다.

 

하지만 많은 양의 데이터가 개방된다고 저절로 다양하게 활용되는 것은 아니다. 여전히 무형의 데이터를 사고판다는 개념이 익숙하지 않을 뿐더러 무엇보다 돈을 지불하고 구매한 데이터를 활용했을 때 더 높은 가치가 창출될 것이라는 확신이 들지 않기 때문이다.

 

실제로, 보유한 데이터가 많다고 데이터를 처리하는 과정과 그 결과가 항상 긍정적이진 않다. 데이터를 수집하고 정리하기 위한 대규모 시스템 도입이 비교적 용이한 거대 기업 입장에서는 많은 양의 데이터가 타 경쟁자의 진입을 차단하는 수단이 된다고 판단할 수 있으나 데이터 사이언티스트* 입장에서는 많은 데이터가 종종 가치 있는 통찰이 아니라 처리에 상당한 시간과 노력이 필요한 골칫거리로 여겨질 수도 있기 때문이다.

* 정보(데이터) 바다에서 가치 있는 데이터를 추출해 분석하는 과학자

데이터 활용의 목적, ‘증명'보다는 ‘Why’

고객 소비 유형 세그먼트*를 조합하면 아래 그림처럼 읽기조차 어려운 어마어마하게 큰 숫자가 탄생한다. 이론적으로는 이 숫자의 조합만큼 개개인의 특성을 서로 다르게 구분 지을 수 있을 뿐만 아니라, 여러 복잡한 상황에 따라 다르게 드러나는 각 개인의 성향을 면밀히 파악할 만큼의 데이터 양을 확보하고 있다는 의미다.

* 시장이나 고객을 특정 기준으로 세분화하는 것을 세그먼테이션(segmentation)이라 하고, 그에 따라 나눠진 고객 집단을 세그먼트(segment)라고 한다.

고객 소비 유형을 다양한 방식으로 조합했을 때 발생하는 경우의 수 ⓒ미래의창

대개 이 양적 데이터를 화려한 차트와 그래프로 제시하면 빅데이터의 활용 가치가 증대되고 인사이트를 얻은 것으로 생각하기 쉽다. 하지만 양적 데이터 분석은 과거를 설명할 뿐이고 사실상 새로운 활용 가능성을 제시하기보다 이미 알고 있는 명백한 고객 행동과 생각을 증명하는 데 그치는 경우가 많다.

 

예를 들어 어떤 지자체 담당자가 지역에 유입되는 외국인의 유동 인구 통신사 데이터와 해당 지역에서 지출하는 건수와 금액, 지출 시점에 대한 카드사 소비 데이터를 확보하고 전국 데이터와 비교·분석하여 그 지역의 '외국인 인기 관광지 Best 10'을 발표한다고 가정해보자.

 

엄청난 양의 데이터를 수집 및 정제, 분석하고 결과를 차트와 그래프로 제시하는 데 상당한 정성과 시간을 쏟기 때문에 해당 담당자는 데이터 사이언티스트로서 한층 발전한 듯해 뿌듯할 것이다. 하지만 그 결과가 '외국인 인기 관광지 Best 10'이라는 점을 간과해서는 안 된다.

 

사실 이 목적을 달성하기 위해서는 단 몇 명의 여행사 담당자가 이미 알고 있던 외국인 인기 관광지 주변의 상인들과 대화를 나누는 편이 훨씬 더 효율적이었을지도 모른다. 오히려 깊이 있는 대화를 통해 외국인 관광객이 '왜' 그 장소에 방문했는지, 그리고 '왜' 그 장소에서의 소비가 그 순간 관광객에게 중요한지와 관련한 정보를 더 많이 얻을 수도 있기 때문이다.

 

디지털 뉴딜의 데이터 댐 정책이 참고한 후버댐은 세계 최대 규모의 콘크리트 건축물, 획기적인 건설 기술로 인류 역사상 최대 토목 공사 중 하나로 꼽히지만, 진정한 가치는 단순히 규모와 기술에 있는 것이 아니다.

 

이 댐이 만들어진 이후 미국 남서부와 멕시코의 황야가 미국에서 가장 비옥한 곡창지대로 바뀌었고, 수력 발전소에서 생산되는 전력이 풍부해진 덕에 지역 경제가 살아나면서 다양한 산업들로 이루어진 생태계가 조성됐다. 댐이 가져온 경기 부양 효과 또한 건설 과정 중에만 두드러진 것이 아니라 지속해서 확장하고 발전했다.

 

우리는 데이터를 수집하고 분석하는 과정에 상당 기간 노력을 기울이지만, 데이터는 상상 이상으로 방대하기 때문에 데이터 활용 효과가 그에 반드시 비례하여 나타나지는 않는다. 후버댐의 사례와 같이 데이터를 잘 활용하려면 인간의 근본적인 욕구에 해당하는 '왜'에 초점을 맞춰 필요한 데이터를 찾아내고 사람들에게 도움이 되는 상품과 서비스를 제공해야 한다.

 

데이터가 필요한 이유에 대한 진지한 고민 없이 그저 가지고 있는 데이터로 분석을 시작하면 유용한 서비스를 만들어내기 어렵고, 그 결과 또한 뻔한 방안이 되기 쉽다. 현업 실무자들이 자주 하는 말이 있다. 바로 "한 줌의 소금을 얻기 위해 바다를 끓여서는 안 된다"는 말이다.

데이터의 비즈니스 활용 구조 ⓒ미래의창

직장인은 온라인 시장에서 언제, 어떻게 소비할까?

  • 김신입 씨는 월요일 점심 식사 후 자투리 시간을 활용해 지난 주말 산행에서 눈에 들어왔던 한 등산객의 넥워머를 빠르게 검색하여 결제까지 완료했다.
  • 결혼 6개월 차 이대리 씨는 설거지로부터 해방되고자 주말 내내 온라인에서 식기세척기 후기를 검색해보고, 오프라인 매장에서 직접 비교했다. 이제 최종 결정만 남은 상황. 주말이 끝날 때까지 고민만 거듭하다가 월요일 퇴근길, 지하철에서 과감하게 결제했다.
  • 워킹맘 박과장 씨는 '육퇴('육아 퇴근'의 줄임말)' 후 비로소 찾아오는 휴식 시간에 인터넷 쇼핑을 즐긴다. 이 시간마저도 주로 아이들에게 필요한 장난감, 육아용품들을 구매하고, 요즘은 원격 수업으로 학교에 가지 않는 아이들의 식사와 간식을 챙기기 위해 새벽 배송을 애용하고 있다.