데이터 부트캠프 - article study

[스파르타 내일배움캠프 / 데이터 분석 트랙] article study 3 - 데이터 리터러시 & 잘못된 데이터 해석

onion95 2024. 11. 14. 23:27

아티클 링크 : https://yozm.wishket.com/magazine/detail/1632/

 

데이터 리터러시(Data Literacy)를 올리는 방법 | 요즘IT

화해팀은 일찍이 데이터의 중요성을 강조해왔는데요. 조직 전반적으로 데이터 활용력을 높이고, 데이터 의사결정 문화를 활성화하기 위해 많은 시도를 해왔습니다. 데이터를 거의 실시간에 가

yozm.wishket.com

                        https://yozm.wishket.com/magazine/detail/1816/

 

그 데이터는 잘못 해석되었습니다 | 요즘IT

무엇이든 데이터가 있으면 쉽게 결정을 내릴 수 있을 것 같습니다. 하지만 현업에서는 데이터가 있어도 결정을 내리기 어려운 상황들이 있습니다. 특히 데이터를 통한 의사결정을 내릴 때, 가장

yozm.wishket.com

 

 

source : https://www.i-boss.co.kr/ab-74668-1420

 

 

[주제]

1. 데이터 리터러시란?

2. 데이터를 잘 활용하기 위한 3가지 조건

5. 잘못 해석된 데이터 유형

 

 

[아티클 요약]

1. 데이터 리터러시란?

  • 데이터 리터러시는 '데이터를 활용해 문제를 해결할 수 있는 능력'으로 정의할 수 있다.
  • 데이터를 잘 활용한다는 것은 데이터를 활용해 문제를 잘 정의하고 해결할 수 있다는 뜻이다. (의미 없는 다수의 데이터를 요청받는 상황에서 문제 정의 - 솔루션 - 측정 지표를 정리하여 데이터 리터러시 향상)

2. 데이터를 잘 활용하기 위한 3가지 조건

  • 데이터를 잘 활용하기 위해서는 1) 데이터/실험 기반 사고방식 2) 분석 흐름대로 데이터를 탐색할 수 있는 환경 3) 이 과정을 도와주는 분석가들이 필요하다.
  • 데이터/실험 기반의 사고방식을 위해 실험 프로세스를 도입하고 실험 보드를 만들었다. 실험 프로세스는 업무에 문제 해결을 위한 실험 방식을 도입하는 것이 핵심이며 다음과 같은 내용이 필요하다.
  • 해결하려는 문제 (문제정의), 관련 OKR (전사 목표와의 일치), 측정 지표 (문제와 지표의 일치, 측정 가능한가), 가설 검증 기준 (성공 여부 판단 방법), 검증 후 변화될 액션 (의미 없는 액션을 하는건가), 결과 (검증 기준에 맞는 결과인가), 학습한 점 (배운점, 다음 실험 반영 사항)
  • 데이터를 탐색할 수 있는 환경으로 데이터맵과 대시보드를 생성했다.
  • 중요한 인풋 지표와 아웃풋 지표 간의 관계를 표현한 관계도를 제작/공유하여 당면한 문제의 연관 지표를 빠르게 파악할 수 있도록 한다. (문제 해결을 위한 중요 지표에 집중할 수 있다)
  • 지표의 현재 수준을 확인할 수 있는 환경인 대시보드를 통해 중요 지표의 변동과 원인을 빠르게 파악할 수 있다.
  • 구성원의 분석 문화를 만드는 과정을 도운 것은 데이터 분석가와 데이터 플랫폼이다.
  • 단순 데이터 추출 및 분석 리포팅에서 끝나는 것이 아닌 문제 정의, 원인 분석, 액션 아이템 도출까지 수행하는 데이터 분석가가 필요하다.
  • 빠른 데이터 분석의 핵심은 데이터 레이크, 데이터 웨어하우스, 데이터 카탈로그와 같은 데이터 플랫폼의 구축이다.

3. 잘못 해석된 데이터 유형

  • 데이터 기반 의사결정에서 가장 경계할 점은 데이터에 대한 잘못된 해석이다.
  • 1) 생존자 편향의 오류 : '이탈한 유저 중 장기 유저의 비율이 높다고 해서 서비스가 잘못된 것으로 해석할 수 없고 장기적으로 충분한 이용 후 이탈한 점에서 서비스는 좋다고 해석할 수도 있다' , '무사 귀환한 전투기의 총탄 자국은 해당 부위의 공격이 생명에 큰 영향이 없다는 의미로 보고 총탄 자국 외의 부위를 강화한 전투기 제작을 연구할 필요가 있다'.
  • 생존자 편향의 오류를 막기 위해서는 분석 과정에서 전체 대상을 기준으로 잡는 것이 중요하다.
  • 2) 심슨의 역설 : A와 B 서비스의 성별 비율에 따라(A는 남여 9:1, B는 2:8) A서비스의 남성 만족도가 B보다 더 높음에도 불구하고 종합 만족도는 상대적으로 낮은 결과를 나타낼 수 있다. 즉, 전체 지표와 그룹별 지표의 방향성이 다르게 나타나는 상황을 뜻한다.
  • 이를 방지하기 위해서는 전체 집단의 지표뿐만 아니라, 집단을 나누어 지표를 확인해야 한다.(지나치게 작은 그룹으로 나누는 것은 복잡도 향상, 특성이 다를 것으로 예상되는 기준 사전 정의)
  • 3) 상관관례를 통한 성급한 일반화 : 이벤트 페이지 조회수가 증가할수록 매출이 증가한 상황에서 비슷한 패턴(상관관계)을 일반화하는 것은 성급하다. 상관성은 있으나 인과성이 없는 경우이다. (두 지표의 공통 원인인 매력적인 이벤트 그 자체가 존재함)
  • 상관관계의 성급한 일반화를 방지하기 위해 두 지표에 동시에 영향을 주는 공통 원인이 있는지 살펴보고 새로운 구조로 지표간의 관계를 파악하는 과정이 필요하다.
  • 4) 목적에 맞지 않는 지표 선택 : CTA 버튼 개선 프로젝트에서 클릭하는 유저의 수를 늘리는 것이 목적이라면 '버튼 조회 유저 수 대비 버튼 클릭 유저 수', 단순 클릭 횟수를 늘리는 것이 목적이라면 '버튼 조회수 대비 버튼 클릭수' 지표를 사용해야 한다.
  • CTA 버튼 개선이라는 같은 목적이지만 세부적으로 어떤 관점에서 개선 목적이 있는지 명확히 하고 목적에 맞는 지표 선택이 올바른 의사결정을 만든다.

* CTA (Call To Action) : 유저의 행동을 유도하는 것

 

[인사이트]

데이터 분석가 뿐만 아니라 전사 구성원으로 데이터 기반의 의사결장 문화가 퍼지기 위해서는 실험 기반 업무 프로세스, 잘 구축된 데이터 환경이 중요하다는 것에 상당히 공감했다. 특히 데이터맵의 제작은 개인적인 프로젝트에서도 퀄리티 향상을 위해 활용할 수 있는 좋은 방안이라는 생각이 들었다.

사실 데이터 분석은 답이 하나가 아니고, 다양한 해석을 내놓을 수 있는 영역이라고 막연하게 믿고 있었다. 하지만 마냥 열린 영역이라고 생각할게 아니라는 것을 깨닫게 되어 꽤나 충격이다. 다양한 방향의 해석이 나올 수는 있겠으나, 그것이 잘못 해석된 결론은 아닌지 매 순간 경계할 필요가 있다는 생각이 든다. 해석의 오류를 줄이기 위해서 명확한 목적 설정은 기본이 되어야 하고, 표본 및 모집단, 그리고 가설에 대한 끊임없는 고민이 중요한 것 같다.