데이터 분석, 전처리가 8할일 줄은 몰랐습니다

💡 10분 안에 이런 내용을 알려드려요!

  • "이게 분석인가 노가다인가" 데이터 전처리에 발목 잡히지 않는 법
  • 코딩 몰라도 AI에게 VBA·파이썬 코드 받아 대용량 데이터 한 번에 정리하는 법
  • 고객 문의·리뷰처럼 사람이 직접 읽고 판단해야 했던 일까지 AI에게 맡기는 API 활용법

* 발행일: 2026.06.19 (AI 아티클의 경우 발행일자를 표기합니다.)

저자 오세규

서비스 기획·PM·데이터 분석 직무를 거쳐 현재는 AI·데이터 분야 강의와 코칭을 하고 있다. > 프로필 더 보기

바야흐로 2020년, 세상이 '빅데이터', '데이터 리터러시', '데이터 기반 의사결정'이라는 말로 떠들썩할 때 처음 데이터 분석 업무를 시작했습니다. 처음에는 제법 설렜습니다. 화려한 대시보드를 그리고, 날 선 인사이트를 뽑아내는 저의 모습을 상상했거든요.

 

하지만 현실은 녹록지 않았습니다. 데이터는 온갖 곳에 파편화되어 있었고, 어렵게 취합한 데이터는 서식과 표기법이 제각각이라 엉망이었습니다. 신규 서비스의 대시보드를 구축해 성과를 보고해야 하는데, 로데이터(Raw data)가 꼬여있어 몇 날 며칠을 엑셀 함수와 파이썬(Python) 코드와 씨름해야 했습니다.

 

'내가 지금 분석을 하는 건가, 청소를 하는 건가' 자괴감이 들 때쯤 깨달았습니다. 이 비효율을 깨부수지 않으면 절대 다음 단계로 넘어갈 수 없다는 것을요.

 

코딩이나 함수, 몰라도 괜찮습니다 

그로부터 약 6년이 지난 지금, 이런 고민은 사라졌습니다. AI에게 원하는 목적과 현재 데이터 구조만 명확하게 설명할 수 있다면, 복잡한 데이터도 손쉽고 정확하게 정리할 수 있게 되었으니까요.

 

이번 글에서는 특별한 기술이나 코딩 지식이 없는 비개발자 직장인도 실무에 즉시 적용할 수 있는 '생성형 AI 기반 데이터 전처리 노하우'를 공유하고자 합니다. 상황과 목적에 따라 활용할 수 있는 핵심 도구들을 소개하고, 수만 줄의 데이터를 전처리하기 위한 프롬프트 작성법까지 자세히 살펴보겠습니다.

내 업무에 맞는 AI 활용 데이터 전처리 전략 짜기

생성형 AI로 본격적인 데이터 정제를 시작하기 전, 반드시 짚고 넘어가야 할 점이 있습니다. 바로 내가 처리해야 할 '전처리의 종류'가 무엇인지, 그리고 '생성형 AI가 가진 한계와 특징'이 무엇인지 정확히 이해하는 것입니다.

 

내가 해야 하는 데이터 전처리는 어느 쪽일까?

실무에서 마주하는 데이터 전처리는 크게 두 가지 종류로 나뉩니다. 지금 내게 필요한 작업이 어디에 해당하는지 파악하는 것이 AI를 활용한 데이터 전처리의 시작입니다.

 

📍 기계적으로 가공하는 전처리 

일정한 규칙이나 수식, 혹은 패턴에 따라 기계적으로 서식이나 구조, 혹은 값을 변경하는 작업입니다. 파편화된 금액이나 날짜 형식을 통일하고, 일괄적으로 특정 기호를 제거하거나 삽입하는 작업, 혹은 글자를 분리하거나 숫자 값에 규칙을 적용해 치환하는 작업 등이 이에 해당합니다.

 

📍 의미적으로 가공하는 전처리 

단순한 규칙 적용을 넘어, AI가 데이터의 내용을 읽고 '생각'하며 '판단'해 분류해야 하는 작업입니다. 예를 들어 고객 센터에 접수된 CS 문의 내역을 분석해 카테고리를 분류하거나, 주관식 설문조사에서 답변의 긍정·부정 감정을 분석하는 작업 등이 해당합니다.

©오세규

 

생성형 AI가 실무 데이터 처리에 어려운 이유

'그냥 챗GPT나 제미나이에 엑셀 파일을 첨부하고 알아서 전처리해달라고 하면 안 되나?'라고 생각하실 수 있습니다. 챗GPT나 제미나이 같은 대화형 LLM은 여러분이 제공한 데이터 파일을 읽어 분석을 하곤 하니까요. 그러나 실무에서 다루는 복잡다단한 대용량의 데이터를 다룰 때는 두 가지 이슈에 부딪히게 됩니다.

 

첫째, 답변이 부정확할 수 있습니다. 생성형 AI 역시 내부적으로는 코드를 실행하거나 텍스트를 읽어 들여 데이터를 처리합니다. 이때 데이터 양이 조금만 많아져도 AI가 한 번에 기억하고 처리할 수 있는 용량을 초과하게 됩니다. 이 경우 중간에 연산을 멈추거나, 데이터를 임의로 누락시키거나, 그럴듯하지만 틀린 답변을 내놓는 현상이 발생할 수 있습니다. 정합성이 무너지는 순간, 데이터의 가치는 대부분 사라집니다.