Skip links

데이터가 가지고 있는 위험한 요소

많은 기업들이 효율적인 마케팅을 하기 위해 수많은 데이터를 분석하고 있습니다.
효율적인 마케팅 전략을 위해 관련된 데이터를 수집하고 분석하여 최적의 마케팅 전략을 수립합니다.
수집된 데이터를 분석해서 도출된 결과를 여러분들은 얼마나 신뢰하고 계신가요?
도출된 결과 데이터가 잘못된 데이터라면 마케팅 전략에 큰 손실을 가져올 수 있을 것입니다.
그럼, 데이터가 가지고 있는 위험한 요소는 과연 무엇일까요?

1. “평균” 데이터가 가지고 있는 위험 요소

수집된 데이터를 분석 할 때 “평균 데이터”는 어떻게 분석하시나요?
예를들면,
만약, 우리가 쇼핑몰을 운영한다는 가정하에…
고객들이 상품을 보는 평균 조회수가 10이라고 가정한다면 많은 고객들이 대략 8~12개 정도의 상품을 본다고 생각할 수 있습니다.
그런데, 만약 대부분의 고객들은 3~4개의 상품만 보고 나머지 고객들이 많은 상품을 조회한다면 우리는 이 상황을 어떻게 분석해야 할까요?
정답은 없지만 대부분 이런 상황에서는 일단, 차트를 그려서 전체 추세를 파악하고 범위 내에서의 데이터를 해석하게 됩니다.
위와 같은 현상을 심슨 패러독스 라고 하는 현상이라고 하는데 지금부터 심슨 패러독스 (Simpson’s Paradox) 라고 하는 중요한 역설에 대해 살펴보겠습니다.
심슨 패러독스를 설명할 때 가장 많이 예시로 드는 자료가 바로 “버클리 대학의 입학 차별” 입니다.
1973년도에 한 여성이 버클리 대학을 상대로 여성의 입학률이 남성보다 낮다는 것을 근거로 고소를 했는데요, 당시 입학자료는 아래 표와 같습니다.

위의 표를 살펴보면 당연히 “남성” 입학률이 더 높게 나오고 있는 것을 확인할 수 있습니다.
하지만, 학과별로 나누어서 살펴보면 어떻게 될까요?
아래 표는 상위 학과들의 입학률 정보 입니다.

예상했던 것과는 다르게 많이 달라보일 것입니다.
학과별 자료를 보면 남자 합격률이 여자보다 낮은 학과가 4개가 된다는 것입니다.
원인은 학과별 지원자 수의 차이가 있었기 때문입니다.
합격률이 60% 이상으로 높은 A, B학과에서 남자 지원자 수는 1385명이었던 반면 여자 지원자 수는 133명에 불과해서 합격률이 높은 학과에 남자 지원자들이 훨씬 많았던 것입니다.
반대로, 여자들은 합격률이 30% 내외에 불과한 C,D,E 학과에 많이 몰렸습니다.
이 때문에 전체적으로 볼 때는 여자의 합격률이 낮게 나타난 것입니다.
심프슨의 역설은 “동일하지 않은 가중치를 적용함에 따라 부분에 대한 분석 결과와 전체에 대한 분석 결과가 일치하지 않는 현상” 을 말한다.
그럼 이번엔 조금 더 자세히 실무적인 관점에서 살펴 보도록 하겠습니다.

[그림 1]을 보시면 1분기에서 점점 DAU가 감소하고 매출액도 점점 줄어들고 있습니다.
해당 쇼핑몰에서 이 차트만 본다면 아마도 많은 고민을 하게 될 것입니다. 이렇게 전체 평균 데이터만 놓고 본다면 생각이 많아 지겠지만, 만약에 이 데이터를 세분화 해서 좀 더 깊게 분석한다면 어떻게 될까요?

[그림 2] 분기별 회원가입 고객 DAU를 보면 [그림 1]의 분기별 데이터와 다르게 회원가입 고객은 조금씩 증가하고 있습니다.
매출액도 2분기에는 약간 주춤했지만 3분기부터 조금씩 증가하고 있습니다.
하지만, 분기별 비회원가입 고객 (=회원가입을 하지 않은 고객) DAU와 매출액을 보면 3~4분기에 엄청나게 떨어져 있습니다.
해당 쇼핑몰에서 회원 고객의 추세에는 별다른 큰 이슈가 없습니다.
그러나, 비회원가입 고객이 1분기, 2분기에 갑자기 증가하여 평균 데이터에 영향을 준 것을 확인할 수 있습니다.
체리피커(=특별이벤트 기간에 가입해 혜택은 다 누리고 실제 매출에는 기여하지 않는 실속만 챙기는 소비자를 의미) 비회원가입 고객이 1분기, 2분기에 특정 상품 또는 프로모션을 위해 잠깐 유입한 것은 아닌지 확인해 볼 필요가 있습니다.
단순한 평균 데이터를 살펴보고 마케팅 전략을 세우기 보다는 데이터를 좀 더 세분화 하여 전체 평균 데이터가 아닌 세그먼트 된 데이터를 보고 올바른 마케팅 전략을 수립해야 할 것입니다.

View
Drag