PUBLY 멤버십 — 일하는 사람들의 콘텐츠 구독 서비스

한 달에 책 한 권 가격으로 모든 콘텐츠를 만나세요
멤버십 더 알아보기

PUBLY 멤버십 — 일하는 사람들의 콘텐츠 구독 서비스

한 달에 책 한 권 가격으로 모든 콘텐츠를 만나세요

멤버십 더 알아보기

올바르지 않은 내용, 오탈자 등 수정이 필요한 부분을 알려 주세요. 보내주신 내용은 저자에게 검토를 요청하겠습니다.

검토 결과는 독자님의 이메일로 회신 드리겠습니다. 내용을 입력해주세요.

  • 이메일

    {{ userEmail }}

  • 챕터 제목

    데이터가 이끌어 온 과학

{{ errors.first('content_error_request_text') }}

#3

데이터가 이끌어 온 과학

저자 최새미 편집 김시현
데이터가 이끌어 온 과학

핵심 개념: 데이터와 알고리즘

Editor's comment

이번 챕터는 인공지능에 대한 '기술'에 초점을 맞추었습니다. 인공지능이라는 키워드를 중심으로 이를 구현하는 머신러닝과 자연어 처리의 실재에 대해 다룹니다. 관련 지식이 있으신 독자는 챕터4 '추천 알고리즘의 발전: 데이터X미디어(1)'로 넘어가셔도 좋습니다.

  • 데이터는 질적이고 양적인 변숫값들의 집합이다.
  • 데이터는 측정되고, 모이고, 보고되며, 분석된다.

데이터란 이미지, 동영상, 음성, 문자 등 모든 형태의 정보를 말하는데, 분석을 위한 데이터는 주로 숫자나 문자로 이루어져 있습니다. 미디어에서는 자연어, 단어 사용 빈도 등이 데이터로 기능하는데요. 특정 구조를 가진 데이터를 정형화된 데이터structured data라고 하며, 대부분의 데이터는 목적에 따라 사용하기 편하게 정제하는 과정을 거칩니다.

 

예를 들어 동창회 명단을 작성한다면, '입학 연도', '이름', '주소' 등으로 정보를 분류할 텐데요. 이러한 일련의 행위를 정형화된 데이터를 만든다고 말할 수 있습니다.

 

이해를 돕기 위해 실험 데이터 세트인 'UCI 머신러닝 저장소Machine Learning Repository'를 살펴보겠습니다. 와인 데이터 세트Wine Data Set데이터를 보면 알 수 없는 숫자의 나열이 보이는데요 이것만 봐서는 무엇을 의미하는지 알기 어렵습니다.

와인 데이터 세트 ⓒUCI Machine Learning Repository이제 데이터 폴더의 이름 파일을 열어 보겠습니다. 4번의 관련 정보Relevant Information를 보면 'Alcohol', 'Malic acid', 'Ash'와 같은 속성attributes을 확인할 수 있고, 5번 데이터 개수Number of Instances에서 1 클래스, 2 클래스, 3 클래스가 각각 59개, 71개, 48개라는 사실을 알 수 있습니다. 다시 데이터를 보겠습니다.

 

처음에는 알 수 없었던 숫자의 나열이 눈에 들어옵니다. 가로 한 줄이 와인 하나의 데이터이고, 속성값은 콤마로 구분되어 있습니다. 위 데이터 첫 줄의 첫 번째 숫자 1은 와인의 등급을 나타내는 클래스를, 두 번째 숫자 14.23은 속성의 첫 번째 값으로 나오는 알코올 도수를 의미하네요.

와인 데이터 메타 정보 테이블 ⓒUCI Machine Learning Repository

PUBLY 멤버십에 가입하시고, 모든 콘텐츠를 읽으세요.

이런 콘텐츠는 어떠세요?

멤버십 더 알아보기

독자 평가

현재까지 283명이 읽은 콘텐츠입니다

  • 강**

    적절한 분량안에 깊이 있는 내용이 잘 정리된것 같습니다. 얼마전까지 미디어 업계에서 디자이너로 종사했던 기억을 떠올렸을때 아주 공감된 내용이 많았고 추가로 얻은 정보도 많아서 참 좋았습니다.
    개인적으로 3번챕터 내용이 좀 어렵고 분량도 많아서 좀 읽기 어려웠습니다. 타 챕터에비해 관련 사전지식이 부족한 탓일수도있겠네요. 좋은 콘텐츠 감사합니다.