데이터 리터러시 1주차_데이터 리터러시란
사전캠프가 끝나고 오늘부터 데이터 분석 본캠프가 시작되었다.
[목차]
01. 데이터 리터러시
02. 문제 정의
03. 데이터의 유형
04. 지표 설정
05. 결론 도출
핵심 학습 키워드
#데이터 리터러시 #문제 정의 #데이터의 유형
01. 데이터 리터러시
핵심 학습 키워드
#데이터 리터러시
데이터 리터러시란, 데이터를 올바르게 해석하고 활용하는 능력을 의미한다.
아무리 좋은 데이터를 가지고 있다고 해도 이를 잘못된 방법으로 해석하고 활용하게 된다면 적절한 결과를 얻을 수 없을 것이다.
다음은 데이터 해석을 잘못한 사례들이다.
- 심슨의 역설 : 정보의 일부분을 볼때 특정한 정보의 관계가 성립하더라도, 정보를 전체적으로 볼때는 해당 관계가 성립하지 않는 경우가 있다.
- 시각화를 활용한 왜곡 : 동일한 정보라도 정보의 표현 방법에 따라 해석이 달라질 수가 있다.
- 샘플링 편향 : 전체 정보에서 샘플링을 할 때 전체를 대표하지 못하는 편향된 샘플을 선정하게 되는 경우, 실제 정보와 상이한 해석이 도출될 수 있다.
- 상관관계와 인과관계 착각 : 상관관계에 해당하는 정보들이 인과관계가 있다고 착각하는 등, 관계를 착각하게 되면 잘못된 해석이 도출될 수 있다.
02. 문제 정의
핵심 학습 키워드
#MECE #로직트리
분석 대상과 데이터 분석의 목적, 방향성을 구체적으로 정의하는 것을 의미한다.
어떤 목적으로 어떤 대상을 분석할지를 막연하게만 생각한다면 분석을 어디서부터 어떻게 시작해야 할지 감도 잡히지 않을 것이기 때문에, 문제 정의를 통해 이러한 부분을을 명확하게 정의해야 할 필요가 있다,
예시)
- 상황 : 쇼핑몰이 요즘 잘 안나가서 고민인 상황
- 원하는 것 : 쇼핑몰이 잘 나가는 것
위의 예시를 봤을 때 나는 "그래서 쇼핑몰이 잘 나간다는게 무슨 뜻인가?"라는 의문을 품었으며, 문제를 해결하기 위해 어떤 데이터를 봐야하는지 고민이 되었다.
문제 정의를 통해 이를 좀 더 명확하게 한다면 다음과 같이 바꿀 수 있을 것이다.
- 지난 6개월 동안 20~30세 여성 고객층의 구매 전환율이 급격하게 감소했다. 이 고객층의 전환률을 2%에서 5%로 끌어올리기 위해 어떤 마케팅 전략을 적용할 수 있을까?
위와 같이 문제를 정의해주면, 정의하기 전 보다 뭘 어떻게 하고 싶은지 좀 더 명확히 보이게 된다.
문제 정의에는 다양한 방법론이 있으며 그 중 MECE와 로직트리에 대해 설명하겠다.
MECE(Mutually Exclusive, Collectively Exhaustive)
- 문제를 상호 배타적(mutually exclusive)이면서, 전체적으로 포괄적(collectively exhaustive)인 구성요소로 나누는 것
- 각 항목이 서로 겹치지 않도록 분류해야 함 (ex 사람을 분류 할 때 기혼/미혼으로 분류 시 중복이 없으나 한국인/일본인 등으로 분류 시, 복수국적을 보유한 사람들은 중복될 우려가 있음)
- 모든 가능한 경우를 포함해야 함 (ex 연령대를 구분할 때 50세 이상, 50세 미만으로 분류 시 모든 사람들을 포함시킬 수 있으나 10대, 20대, 30대로 분류 시 40대 이상의 사람들에 대해서는 포함시킬 수 없음
로직 트리(Logic Tree)
- MECE 원칙을 기반으로, 문제를 체계적으로 분석하고 해결하는 논리적 사고 기법
- 상위 문제를 정의하고, 상위 문제에서 하위 문제로 계층적으로 접근
- 도표 형식으로 표현 가능
03. 데이터의 유형
핵심 학습 키워드
#정성적 데이터 #정량적 데이터
데이터는 크게 두 가지 유형으로 구분할 수 있다.
정성적 데이터
- 사람의 경험, 관점, 태도 등 주관적인 요소를 포함하는, 비수치적인 정보로 이루어진 데이터
- 데이터가 정형화 되어있지 않고 구조화도 되어있지 않음
- 데이터를 구조화하기 어려움
- 새로운 현상이나 개념에 대한 이해를 심화하는데 사용
정량적 데이터
- 연령, 구매금액 등 수치적으로 표현되는 정보로 양적인 측정과 분석이 가능한 데이터
- 개인의 해석이나 주관이 적게 작용하는 객관성 보유
- 데이터가 정형화 되어 있으며, 수치로 표현하기 용이하기에 지표에 사용 가
04. 지표설정
핵심 학습 키워드
#Active User #Retention Ratio #Funnel #LTV #북극성 지표
지표란 특정 목표나 성과를 측정하기 위해 사용되는, 구체적이고 측정가능한 기준이다.
문제 정의를 통해 어떤 문제를 풀고자 하는지 구체적인 정의가 완료되었다면, 문제 해결을 통해 어떤 결과를 기대하는지를 정량화된 기준을 통해 표시하는 것이 필요하다.
다음은 주요 지표들을 정리한 내용이다.
Active User (활성유저)
- 일반적으로는, 특정 기간 동안 웹사이트 등에서 실제 활동을 수행한 사용자를 의미하며, 서비스와 상호작용한 사용자를 측정하기 위해 사용하는 지표
- 활성 유저를 어떻게 정의하냐에 따라 '이탈 유저'가 정의됨
- 활성 유저의 정의에 따라 전략과 방향이 달라짐
Retention Ratio (재방문율)
- 특정 기간 동안 서비스를 다시 이용하는 사용자 비율을 측정하기 위해 사용하는 지표
- 기본적으로 방문을 기준으로 측정하나, 서비스의 특성에 따라 서비스를 다시 이용함의 정의를 다르게 할 수 있음
- Retention Ratio 계산 공식은 아래와 같다.
- N-Day 리텐션 : 최초 사용일로부터 N일 후에 재방문한 Active User의 비율이며, 일반적으로 사용되는 지표
N-Day 리텐션
- 최초 사용일로부터 N일 후에 재방문한 Active User의 비율이며, 일반적으로 사용되는 지표
- 유저가 Active User로 집계된 최초 날을 Day 0으로 설정
- Day 0에 액티브 상태가 된 모든 유저들의 N일차 리텐션을 계산
- N-Week, N-Month도 가능
Unbounded 리텐션
- 특정일을 포함하여 그 이후에 한 번이라도 재방문한 유저의 비율 (이탈률과는 반대 개념)
- 유저가 정기적으로 반복해서 방문하는 서비스가 아니거나, 사용 빈도가 높지 않은 서비스의 경우 적합 (채용 사이트 등)
- 해당 지표는 절대적인 수치보다는 지표가 어떻게 변화하는 지에 대해 트렌드를 보는 용도로 활용하는 것을 권장
Bracket 리텐션
- Bracket 리텐션은 N-Day 리텐션을 확장한 개념 > 일/주/월 단위가 아닌 지정한 구간으로 나눔
- 활성유저가 특정한 활동을 위해 각 Bracket 내 서비스에 재방문시 잔존 유저로 해석
- 하루 정도 서비스에 접속을 안했더라도, 리텐션에 영향을 주지 않기 때문에 기준이 조금 더 널널함
Funnel (퍼널)
- 서비스 이용자가 특정 목표(예: 구매, 회원가입, 서비스 이용 등)에 도달하기까지의 과정을 단계별로 분석하는 기법
- 사용자가 어떤 단계에서 이탈하는지 분석해서 서비스 개선방향 도출
- AARRR 단계구분을 주로 사용
- Acquisition: 유입 : 사용자가 처음 서비스에 방문하는 단계
- Activation: 활성화 : 회원가입, 첫 구매 등 중요한 행동을 수행하는 단계
- Revenue: 수익 : 실제 결제가 이루어지는 단계
- Retention: 재방문(재구매) : 사용자가 다시 서비스를 이용하는 단계
- Referral: 추천 : 사용자가 친구에게 서비스를 추천하는 단계
LTV (Life Time Value, 고객 평생 가치)
- 한 명의 고객이 기업과 거래를 시작한 후 평생 동안 기업에 가져다주는 총 수익을 의미하는 지표
- 서비스마다 계산방법이 달라짐 (이익 x Life Time x 할인율(미래 비용에 대한 현재 가치) 등)
- LTV 추측이 가능하다면, 신규 유저를 데려오는 비용(CAC: Customer Acquisition Cost)의 산출 및 효율적인 예산 운용이 가능
북극성 지표
- 기업이나 서비스가 장기적으로 성장하기 위해 가장 중요한 핵심 지표
- 제품의 핵심 가치를 반영해야 함
- 단순한 결과 지표가 아니라, 비즈니스 성장과 직접적으로 연결되는 지표여야 함
- 조직이 해석하고 구체적인 행동을 취할 수 있는 지표
- 명확한 수치로 측정 가능하며, 데이터 분석이 가능한 지표