
도구를 많이 알면 데이터 분석가가 될 수 있을까요? 저도 처음엔 그렇게 생각했습니다. Python 배우고 SQL 공부하면 취업되는 줄 알았습니다. 그런데 실제로 공부를 시작해 보니, 도구 이름보다 훨씬 앞에 있어야 하는 게 있다는 걸 깨달았습니다. 이 글은 도구 목록이 아니라, 어떤 도구를 왜 배워야 하는지 방향이 필요한 분들을 위해 썼습니다.
데이터 분석가가 실제로 쓰는 도구, 팩트부터 정리합니다
데이터 분석 업무는 단계마다 쓰는 도구가 다릅니다. 데이터를 정리하는 단계, 꺼내는 단계, 분석하는 단계, 전달하는 단계가 각각 따로 있고, 그 단계마다 맞는 도구가 있습니다.
가장 먼저 접하게 되는 건 엑셀입니다. 엑셀은 피벗테이블(PivotTable)을 활용해 대량 데이터를 조건별로 집계하고 요약할 수 있습니다. 여기서 피벗테이블이란 행과 열을 원하는 기준으로 재배치해 데이터를 요약하는 기능으로, 복잡한 수식 없이도 합계, 평균, 개수를 빠르게 뽑을 수 있습니다. 제가 처음 실무 데이터를 다뤄봤을 때도 피벗테이블 없이는 아무것도 못 했습니다.
그다음 단계가 SQL입니다. SQL은 기업 데이터베이스에 저장된 데이터를 직접 조회하고 추출하는 언어입니다. 특히 JOIN 문법이 핵심인데, JOIN이란 서로 다른 테이블에 흩어진 데이터를 공통 키 값으로 연결하는 방식입니다. 예를 들어 고객 테이블과 주문 테이블을 고객 ID로 연결하면, 특정 고객이 어떤 상품을 얼마나 샀는지 한 번에 볼 수 있습니다. SQL을 못 하면 매번 개발자에게 데이터를 요청해야 하고, 그 사이에 분석 흐름이 끊깁니다.
Python에서는 pandas 라이브러리가 핵심입니다. pandas란 Python 기반에서 데이터프레임(DataFrame) 구조로 데이터를 불러오고, 결측값 처리, 칼럼 생성, 데이터 병합 등을 처리하는 오픈소스 분석 도구입니다. 데이터프레임이란 행과 열로 구성된 표 형태의 데이터 구조로, 엑셀 시트와 유사하지만 코드로 자동화할 수 있다는 점이 다릅니다. 분석 도구를 입문자 관점에서 정리하면 다음과 같습니다.
- 엑셀: 데이터 구조 이해, 피벗테이블, 기본 집계
- SQL: 데이터베이스 조회, JOIN, GROUP BY 집계
- Python(pandas): 데이터 전처리, 자동화, 병합
- Tableau / Power BI: 대시보드 구성, 시각화 보고서
- Jupyter Notebook: 분석 과정 문서화, 포트폴리오 정리
시각화 도구인 Tableau와 Power BI는 분석 결과를 대시보드 형태로 표현하는 데 사용됩니다. 특히 Power BI는 Microsoft의 비즈니스 인텔리전스(BI) 플랫폼으로, 조직 내 데이터를 연결하고 시각적 보고서로 공유할 수 있습니다. 비즈니스 인텔리전스란 데이터를 수집, 분석해 의사결정에 활용할 수 있도록 가공하는 전체 과정을 의미합니다(출처: Microsoft Learn).
제 경험으로 보면, 순서가 틀리면 다 돌아갑니다
솔직히 이건 예상 밖이었습니다. 저는 처음에 Python부터 시작했는데, 기초 문법을 익히는 것까지는 괜찮았습니다. 문제는 pandas로 넘어간 순간이었습니다. 데이터프레임에서 결측값을 처리하거나 칼럼을 조건부로 생성하는 코드를 쓰는데, 왜 이걸 하는지 맥락이 없으니 금방 막혔습니다.
나중에 엑셀로 돌아가서 피벗테이블과 필터를 직접 써보고 나서야 pandas가 무엇을 자동화하는 건지 이해됐습니다. 순서가 중요하다는 걸 그때 몸으로 알게 됐습니다. 제 경험상 이건 좀 다릅니다. 많은 분들이 "엑셀은 쉬운 거 아닌가요?"라며 건너뛰려 하는데, 그 선택이 나중에 꽤 많은 시간을 돌아오게 만듭니다.
SQL도 마찬가지였습니다. SELECT, WHERE, GROUP BY 같은 기본 문법은 빠르게 익혔지만, 실제로 두 테이블 이상을 JOIN 해서 의미 있는 결과를 만들어내는 데는 생각보다 훨씬 많은 연습이 필요했습니다. 제가 직접 공공데이터로 SQL 쿼리를 짜보면서 느낀 건, 문법보다 데이터 구조를 먼저 이해해야 한다는 점이었습니다. 어떤 테이블에 어떤 칼럼이 있는지, 어떤 키로 연결되는지를 모르면 쿼리를 작성할 수가 없습니다.
Jupyter Notebook은 포트폴리오 관점에서 특히 유용했습니다. 코드와 분석 해석, 시각화 결과를 한 화면에 정리할 수 있어서, 분석 과정을 누군가에게 설명하기 좋은 구조가 만들어집니다. 단순히 결과만 보여주는 것보다, 왜 이 데이터를 봤고 어떤 기준으로 해석했는지 흐름이 남아있는 게 실제 평가에서 차이를 만든다고 느꼈습니다.
일반적으로 Python을 배우면 분석을 다 할 수 있다고 알려져 있지만, 실제로 써보니 SQL 없이는 데이터를 가져오는 것 자체가 막힙니다. 두 도구는 대체 관계가 아니라 역할이 완전히 다릅니다.
도구보다 먼저 있어야 할 것, 심층분석을 통해 본질을 짚습니다
데이터 분석가를 준비하는 분들과 이야기해 보면 공통적인 패턴이 있습니다. 도구 목록은 외우고 있는데, 정작 "이 데이터로 무엇을 해결하려고 하나요?"라는 질문에는 막힌다는 것입니다. 제가 생각하기에 이게 가장 핵심적인 문제입니다.
예를 들어 매출이 줄었다는 상황이 주어졌을 때, 단순히 월별 매출 그래프를 만드는 것으로 끝나면 안 됩니다. 제품별 판매량, 고객 유입 채널, 재구매율(Retention Rate), 광고 전환율(Conversion Rate) 같은 지표를 함께 봐야 원인에 가까워질 수 있습니다. 여기서 전환율이란 광고나 링크를 클릭한 사람 중 실제 구매까지 이어진 비율을 의미합니다.
또한 고객 이탈 분석에서는 이탈률(Churn Rate)을 중심으로 가입 시점, 마지막 접속일, 서비스 이용 빈도를 함께 추적해야 합니다. Churn Rate란 일정 기간 동안 서비스를 떠난 고객 비율로, 구독형 서비스에서 특히 중요한 핵심 지표입니다. 이런 지표들을 어떻게 정의하고 어떤 기준으로 해석할지가, 도구 사용 능력보다 실제 업무에서 더 크게 작용합니다.
pandas 공식 문서에서도 pandas를 "빠르고 유연한 오픈소스 데이터 분석 및 조작 도구"로 정의하지만(출처: pandas 공식 문서), 도구가 유연하다고 해서 분석 방향까지 알아서 만들어주지는 않습니다. 어떤 칼럼을 보고, 어떤 조건으로 필터 하고, 어떤 지표를 만들어야 하는지는 결국 분석가가 결정해야 합니다.
제 경험상 이건 좀 다릅니다. 도구를 많이 알수록 분석을 잘하는 것처럼 느껴지지만, 실제로는 문제 정의가 명확할수록 어떤 도구를 써도 분석이 빠르게 진행됩니다. 반대로 문제 정의 없이 데이터만 열면, 어떤 도구를 써도 방향을 잃게 됩니다.
데이터 분석가를 준비한다면 도구를 배우는 것과 동시에, 분석 목적을 먼저 정하고 그 목적에 맞는 도구를 고르는 연습을 함께 해야 합니다. 도구는 그 목적을 달성하기 위한 수단이지, 목적 자체가 되어서는 안 됩니다.
결국 데이터 분석은 도구 경쟁이 아닙니다. 어떤 질문을 던지고, 그 질문에 맞는 데이터를 찾아 해석하고, 의사결정에 연결하는 능력이 핵심입니다. 도구는 엑셀부터 차근차근 익히되, 항상 "이걸 왜 분석하는가"라는 질문을 먼저 붙잡고 시작하시길 권합니다. 그 질문이 있는 사람과 없는 사람의 분석 결과는, 같은 도구를 써도 결이 다르게 나옵니다.