⟪SQL로 시작하는 데이터 분석⟫

⟪SQL로 시작하는 데이터 분석⟫

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

⟪SQL로 시작하는 데이터 분석⟫
image
Github repository

한줄 서평

sql 문법은 아는데, 유저 데이터, 고객 거래 데이터를 어떻게 분석해야할 지 막막하다면 추천하고 싶은 책

학습 후기

업무에서 hive-sql을 쓰고 있어 문법 구조가 완전히 동일하지는 않았지만, 코드를 하나하나 뜯어보고 이해하기 위한 책이라기 보다는 데이터 분석의 흐름과 관점을 이해하는 것 자체가 실무에 많이 도움이 되었다.

특히, 하나의 주제를 선정해 단기간에 분석 결과를 내고 사업부서와 소통해야하는 상황에 있었던 필자는 하기와 같은 내용에 도움을 많이 받았다.

분석 목적에 따른 분석 방법 선택, 논리적으로 결과를 기술하는 법

분석가의 업무 자체가 사업부서와의 소통을 기본으로 한다. 그래서 분석 결과를 상대가 이해하기 쉽도록 분석의 <배경/목적 - 내용 - 결과/결론>이 논리적으로 정리하고 그리고 비즈니스 관점에서 중요한 핵심만 선별해 전달하는 스킬이 필요하다.

예를 들어, "트렌드 분석"이라는 분석 목적이 있다고 하면 데이터를 수집하고 분석해 집계하는 방법은 하기와 같은 것들을 쉽게 떠올려 볼 수 있다.

  1. 분석 대상 기간 전체의 매출액 추이를 본다.
  2. 분석 대상 기간을 구간을 나눠 매출액 추이를 본다.
    • 구간 비교 : 노이즈가 제거된 트렌드를 확인할 수 있다.
      • 지표 : 전년 대비 증감율을 본다.vs 전월 대비 증감율을 본다. vs 현재 월의 매출을 최근 3년간 동월과 비교한다.

이러한 생각의 흐름을 단순히 하면서 정리하는 게 아니라 목적에 따라 분석 혹은 집계 방법이 달라지기 때문에 "왜 내가 이런 지표를/방법을 선택해서 사용했는 지" 분석 관점을 정리해야한다. sql로 시작하는 데이터 분석 책의 전개가 이러한 생각 흐름 정리에 큰 도움이 되었다.

유익했던 부분

필자는 고객의 거래 데이터를 다루고 있었는데, 구체적으로 도움이 되었던 것 부분은 3장과 4장이다.

  • 3장 시계열 분석 파트는 계절성과 같은 노이즈를 제거한 트렌드 파악과 같이 전체적인 데이터의 경향을 파악함에 있어 책의 분석 흐름이 보고서 작성에 큰 도움이 되었다.
  • 4장 코호트 분석 파트는 코호트별 차이(리텐션, 특정이벤트발생 등)를 파악하는 분석 관점을 참고해 여러가지 관점에서 그룹간 유의미한 차이를 도출해볼 수 있었다.

sql을 사용해 유저 데이터, 고객 거래 데이터를 분석하고 있다면 혹은 분석을 입문한다면 추천하고 싶은 책이다.