Google Analytics

[GA기초]GA는 정확한가요??

릴택 2021. 1. 3. 23:59

GA는 과연 정확할까요??

GA를 사용하며, 파트너, 클라이언트, 스터디 심지어 주변 팀원들한테까지도 많이 받는 질문이다.

정답은 "아니다"

하지만 "1도 믿어서는 안된다"는 절대 아니다.

두괄식으로 결론부터 내버렸지만, 100%는 아닐뿐, 99%에 가깝게 접근하거나, 최대수준의 정확도에 수렴할 수 있게끔 하는것이 GA를 사용하는 유저의 현명한 자세일것이다.

*반전은 없습니다 :)

정확도가 100%가 아닌데, GA를 왜 써야 하는걸까요?? "

어려운 질문 혹은 답하기 어렵다고 생각할 수 있겠는데, 여기에 대한 대답은 아주 간결했다.

무료니까 ㅎㅎㅎ

GA의 가장 큰 장점이자 강력한 무기이다. 물론 여기서 명확한 한계가 나오긴 하지만, 그 한계를 커버할 수 있는 상위플랜이 있으니 별 문제될 것은 없는것 같다.

어느정도 규모가 있는 비즈니스라면, 웹 로그 분석툴에 돈을 지불할 의향이 있거나, 자체 개발팀 구축을 하여 내부 데이터를 차곡차곡 1-10로 쌓고 있을것이다.

하지만 GA의 Main Audience는 이런 대형 비즈니스들이 아니다.( 적어도 GA 360이 아닌, GA에서는)

흔히 말하는 SMBs, 중소 온라인 비즈니스를 위한 무료 로그 분석툴이기 때문에, 명확한 한계가 존재함에도 불구하고 가장 강력했고, 효율적인 툴이었다.

그러면 이 밑에서부터는 GA를 어떻게 활용해야 정확하지 않다는 이슈를 커버하고, 장점을 극대화 할 수 있는것인가에 대해서 알아보려고 한다.

GA의 명확한 한계

GA의 명확한 한계가 어떤것인지 알아보려고 한다.

대부분의 GA에 대한 두려움은 이 한계를 정확하게 알지 못하기 때문에 생기는것이고, 정확히 안다면, 두려워하기보다 본인의 비즈니스에 맞는지 판단할 수 있고, 회피할 수도 있다.

아주 많은 장점들이 있는 GA이지만, 까내리려면 충분히 까내릴 수 있을 정도로 단점들도 있다.

오늘은 그중 가장 치명적이지만, 대부분 정확히는 모르는, 정확도에 큰 영향을 끼치는 데이터 샘플링에 대해서 알아보려고 한다.

Data Sampling

아마 가장 두려워하는 한계이지 않을까 싶다.

GA는 모든 데이터를 정확하게 처리하지 못 하며, 일정 수준 데이터 샘플링을 통해 제공하고 있다.

이게 다른 툴 혹은 쿼리를 받아 쓰는 자체 데이터툴과의 차이점으로 볼 수 있다.

분석 툴이면서 왜 샘플링을 통해 데이터를 제공할까..?? "

GA의 설명을 먼저 보자

  • 데이터 분석에서 의미있는 정보를 대량의 데이터셋에서 발굴해내기 위해서는, 특정 규모의 데이터를 샘플링한다. 즉 100 acre의 면적에서 나무 수를 구할때, 하나씩 다 세는것이 아닌, 1acre의 나무를 센 뒤의 값에 100을 곱하면서 전체인 100의 데이터를 표현하는것이다.

데이터 사이언스 혹은 데이터 개발 및 분석의 수준까지는 한참을 모르기 때문에, 섣불리 맞다 틀리다 라고 할 수는 없겠지만, 어느정도 통계를 내기 위해 사용되는데에는 충분한 샘플링으로 보고 있다.

왜 100이 아닌 10을 샘플링하나요? 이왕 할거면, 20, 50, 아예 100을 샘플링 하면 안되나요?

좋다. 무조건 좋지만, 무조건 효율적이냐? 혹은 무료툴인 GA에서 요구해야할 사항일까?

이 Data Sampling 은 특정 조건에서만 발생이 된다.

GA에서의 데이터 샘플링 기준은 다음과 같다.

  1. Session > 500k

    During the date, Property 당 Session > 500k

    다시 말해서 세션을 사용하는 기간 당 속성값에서의 세션이 50만이 넘어가면 샘플링에 걸린다는 것이다.

    진짜 단순하게 예시를 들어보자면,

    해당기간 동안, 발생한 세션이 40만개이면, 이 속성에 속하는 데이터들은 샘플링이 발생하지 않은것이다.

  1. 기본으로 제공되는 Default Reports가 아닌 경우

    Audience, Acquisition, Behavior, Conversions 에서 기본적으로 제공하는 데이터들은 샘플을 거치지 않았다.

    다만, 여기서 샘플링에 걸리는 조건을 추가할 수 있는데,

    • Custom reports 생성
    • Segement 적용
    • Filter 적용
    • Secondary dimension 적용
    • Custom dimension & metric 생성
    • Google Ads와 같은 광고 데이터

    등등이 있다. 쉽게 알아보려면, 기본 보고서 상태에서 하나라도 추가되거나, 기본 보고서에서 볼 수 없는 자료를 보려고 한다면 다 샘플링에 걸리게 된다.

샘플링이 어떤식으로 되는지는 실제 사례를 보자

  • 상황1 : 기본 Audience의 Overview에서 'Mobile Traffic' Segement를 활용하여 모바일 사용자의 트렌들르 분석하고 싶을 때 - 2020/12/01 ~ 2021/01/02 까지의 세션수는 73만개이며, 모바일 트래픽 세션수는 48만개이다.
    • All users Segment만 보았을때는 Sampling X
    • All Users + Mobile Traffic을 조회 했을때는 Sampling O
    • 기간을 2020/12/28 ~ 2021/01/04 까지로 좁혔을때는 All Users가 13만 Session이라서 Sampling X

  • 상황2 : Conversion reports 중 Ecommerce에서 SalesPerformance를 보며 일별로 매출 추이를 확인하고 싶을떄 - 2020/12/01 ~ 2021/01/02 까지의 세션수는 73만개
    • All Users로 두고 Overview를 보았을때는 Sampling X
    • E-Commerce에서 Sales Performance를 보았을때 는 Sampling O ( 이때는 Dimension 이 'Transaction ID' 여서 Filtered report 가 된다. )
    • 위 내용과 동일하지만, Primary Dimension을 Date로 두었을때는 Sampling X ( 이때는 Dimension 이 'Date' 여서 Filtered report에 해당되어지지 않는다. )
  • 상황 3 : Acquisition 중 Treemaps를 보면서 유저들의 유입비중을 파악하려고 한다. - 2020/12/01 ~ 2021/01/02 까지의 세션수는 73만개
    • Treemaps 에서 Primary Metric을 'Users' → 'Sessions'로 변경했을때 Sampling X
    • Secondary Dimension 을 활용하여 Custom dimension을 추가하여 보았을때 Sampling O

총 3개의 상황에서 여러가지 케이스를 보면서, 어느정도 이해가 되었는지는 모르겠지만,

데이터 샘플링의 기준을 다시 요약하자면,

  • 해당 기간 세션 수 500k 이상 ( Property 기준 )
  • Overview 혹은 Default Report가 아닌 Custom report ( transaction ID 와 같은 dimension 도 Custom에 해당 )
  • Report에 Segment, Filter, Secondary Dimension 추가

이렇게 3가지로 볼 수 있다.

기본제공은 해주지만, 더 방대한 데이터는 자세하게 (무료로) 제공해주지 않겠다."

GA 의 장점 및 활용할 포인트

이 글을 쓰게 된 이유는

GA가 무료라서 A,B,C,D 가 안 되니, 조용히 써라 !🤫

이런 의도는 아니다 🤦

이게 아니다. 무료임에도 요구할건 요구하되, Google Analytics에서 정답과 가이드를 제시해준것은 확실히 알아야한다. ex)GA360, Property 단위의 세션 측정

한계를 명확하게 알았고, 그 한계를 없앨수 없다는것도 깨달았으니 방법은 세가지이다.

1. 돈이 많다면 GA360을 써라

2. 돈이 적다면 Adobe Analytics, Amplitude 등을 써라

3. 돈이 없다면 무료GA를 효율적이고 스마트하게 활용하여 2번 1번을 향해서 성장시키자.

*'아무것도 안 쓴다'는 철저히 감에 의존하는 사업가이기 때문에, 존경하고 부러운 성향이지만, 나와는 맞지 않아서 제외하였다 :)

어차피 쓸거라면, 효율적이고 스마트하게 쓰자!

샘플링의 양적기준을 보자

  • Property당 해당 기간 500k session 일 경우 샘플링이 발생한다
    • = 즉, 500k 될 때 마다 속성을 많이 만들면 된다. ← 이렇게 접근하는건 추천하지 않는다. 연속성이 없는 데이터이며, GA는 date range를 조정하면서 보는것이 장점인데, 그 장점을 끊는 것이다. 무엇보다 Property 단위로 데이터 수집을 하는데, 매번 UA값 교체하는게 귀찮을 것이다. :)
    • 스마트하게 보는 기간의 Session Threshold를 넘지 않게끔 해라 ! 위에서 1달치의 기간은 70만개의 세션이었지만, 더 적은 기간을 선택하면 세션이 많이 줄어든다. 더 정확한 데이터를 보려면 기간을 짧게해서 원하는것만 캐치해내는것이 중요하다.

정확도를 높이자

  • Sampling이 걸렸다는것을 알 수 있는것은 Report 이름 옆에 마크를 통해서 알 수 있다 ( 꿀팁쓰 😎 )
  • 빠른 속도 vs (비교적) 정확한 데이터를 선택 할 수 있다.
  • 보면 빠른응답은 더 적은 세션데이터를 가지고 샘플링 하기 때문에 빠르게 리포트를 나타낸다.
  • 그 밑에 대쉬보드까지 같이 보이게 한것은, 샘플링 데이터에 따른 결과값이 다르게 나올 수 있다는것을 보여주기 위함이다. 1번 dimension 의 transactions는 432 vs 449이다..

최대한 기본 제공 데이터를 깊게 들여보는 연습을 해보자

  • 위 팁들에서 본것 처럼, 세션수가 많다고 해서 무조건 샘플링이 걸리는것은 아니다. 예시로 Treemaps에서 똑같이 1년치 데이터를 보았지만, 별다른 설정없이 기본제공 데이터를 보면 이렇게 뜬다.
  • 즉, 별다른 설정없이 보면 샘플링은 걸리지 않기 때문에, 최대한 여기서 많은 인싸이트를 뽑아보며, 더 자세한 데이터가 꼭 필요한 경우에 방법을 생각해보는것이 효율 적이다. ex) 애초에 Souce/Medium을 잘 구축해놓으면, 해당 report에서 보더라도 Sampling은 X



GA는 무료이지만 정확하지 않다고 욕을 먹는 신기한 툴(?)

이게 참 안타까웠다. 돈을 지불하고 쓰더라도, 충분히 가치있는 웹로그 분석툴이며, Google Marketing Platform 혹은 외부 툴들과의 확장성만 보더라도 아주 무한한 가능성이 있는 툴이라고 생각했는데, 몇가지 한계가 명확하다는 이유로 쓰지 않거나, 욕을 먹는 경우가 많았다.

물론 나도 충분한 비용이 있으면 Amplitude나 Mixpanel등을 사용했을것이다.

하지만 돈이 많아서 다른 툴을 쓴다고 하더라도, GA는 활용을 안 할 수 없을것 같다.

  • 무료
  • Google Marketing Platform ( google ads + GTM + Search Console 등 )
  • 범용성 ( 방대한 자료 및 활용방법 )

이런 메리트들이 있는데, 애써 무시하는것보다는, 본인의 상황에 맞게 적절하게 활용해주는것이 스마트하고 효율적인 분석이라고 생각한다.

*무엇보다 두괄식으로 GA는 정확하지 않다고 써놓았지만, 그 어떤 로그 분석툴도 100% 정합성을 보장할 수는 없을것이라고 생각한다 :(