알고리즘을 구성하는 세 가지 데이터

앞서 말했듯이, 알고리즘이 작동하기 위해서는 데이터가 필요합니다. 플랫폼마다 약간의 차이는 있지만, 추천에 활용되는 데이터는 크게 세 가지로 분류됩니다.

 

1. 유저데이터(user data)

유저데이터는 말 그대로 이용자에 대한 정보입니다. 유저의 이름, 사용하는 ID, 가입 일자, 구매한 상품, 성별, 연령 정보 등이 여기에 포함됩니다. 예를 들어 퍼블리를 이용하는 '최요한'의 유저데이터는 아래와 같습니다.

퍼블리 이용자 '최요한'에 대한 가상 데이터. 각 항목은 이용자의 값으로 채워진다. (제작: 퍼블리)

유저데이터를 많이 수집한다고 좋은 것은 아닙니다. 플랫폼의 특성에 맞게 꼭 필요한 정보만 효율적으로 수집하는 게 최선입니다. 사용하지 않으면서 수집·보관되는 데이터는 용량을 차지해 불필요한 서버 관리 비용을 발생시키며 데이터 처리 속도 저하의 원인이 됩니다.

 

가령 퍼블리는 이용자의 관심 분야와 직업·직군 등의 정보를 수집하는 것이 좋습니다. 이를 기반으로 이용자에게 개별적으로 해당 직무와 관련된 지식 콘텐츠를 생산하고 추천할 수 있기 때문입니다. 반면 넷플릭스는 이용자의 직군보다는 이용자가 선호하는 장르와 콘텐츠 유형을 수집할 것입니다.*

 

2. 메타데이터(metadata)

유저데이터가 이용자를 정의하는 데이터라면 메타데이터는 콘텐츠를 정의하는 데이터입니다. 콘텐츠의 장르, 연령 등급, 가격, 제작 국가, 주인공 직업, 성별 등을 기준으로 콘텐츠를 정의할 수 있습니다. 예를 들어, 영화 <기생충>의 메타 데이터는 아래와 같습니다.

<기생충>에 관한 메타데이터 예시 (출처: 영화권입장권통합전산망 / 제작: 퍼블리) 

메타데이터는 구체적이면 구체적일수록 좋습니다. 풍부한 메타데이터는 더 정확하고 다양하게 콘텐츠를 추천할 수 있는 기반이 되기 때문입니다. 그래서 플랫폼은 메타데이터 관리에 공을 많이 들입니다. 기본 메타데이터에서 확장된 항목을 만들기도 하죠. 바로 키워드, 컬렉션, 평점 등입니다.