데이터 부트캠프 - Today I Learned

[스파르타 내일배움캠프 / 데이터 분석 트랙] TIL(Today I Learned)_7주차_25.01.06

onion95 2025. 1. 6. 21:21

Today's Goals

1. 다시 학습 주간에 익숙해지기 - 코드카타 SQL & 파이썬

2. 통계학...이걸 내가 또 배울 줄이야

 

 

 

새로운 조, 새로운 공부(통계학 시러으르ㅓ어러)

 

드디어 머신러닝을 배우는 주인가보다.대학원에서도 참 이해하기 힘들었던 부분인데... 하아ㅏ(벌써오열)

 

이번 주간도 잘 해보자고

 

 

 

 

1. 코드카타

 

파이썬


 

[sort와 sorted]

  • sort는 리스트형의 메서드로, 리스트 형태의 자료형을 정렬하는 기능
  • sorted는 내장함수로, 반복가능한(iterable) 어떤 자료형이든 정렬하여 리스트에 담아 반환함
  • 알파벳 정렬에서 대문자는 소문자보다 작은 값으로 인식되어 오름차순의 경우 앞쪽에 정렬됨

 

 

 

 

1. 통계학

 

라이브 세션


[통계학에서의 자료형]

①범주형 자료

  • 명목형 자료(Nomial data) : 순서가 의미 없는 (예 : 혈액형)
  • 순서형 자료(Ordinal data) : 순서가 의미 있는 (예 : 학점 )

②수치형 자료

  • 이산형 자료(Discrete data) : 두 데이터 구간이 유한, 특정 숫자 값? (예 : 사람 수)
  • 연속형 자료(Continuous data) : 두 데이터 구간이 무한, 특정 구간 안에서 어떤 값도 가능한 (예 : 키)

 

  • 범주형 자료는 인간의 언어로, 컴퓨터나 수식에 적용하기 위해서는 반드시 숫자로 변환하는 과정이 필요함(인코딩)

 

 

[중심경향치]

  • 범주형 자료의 경우 최빈값, 수치형 자료의 경우 평균값 혹은 중앙값을 사용
  • 평균의 경우 이상치에 민감하며, 중앙값이 이상치의 영향을 덜 받는 집단의 대표값으로 설명할 수 있음

 

 

[데이터의 퍼짐 정도를 알 수 있는 산포도]

  • IQR, 분산, 표준편차, 변동계수 등으로 파악할 수 있음
  • 변동계수 =  표준편차/평균 으로 값의 스케일이 달라 분산이 달라지는 경우를 보정하기 위한 방법임 (g 단위의 값과 kg 단위의 값은 스케일이 달라 똑같은 데이터를 이용해도 분산이 달라짐)

 

 

[numpy에서 자주 쓰이는 함수]

numpy
│
├── 기본 통계 함수
│   ├── mean()                 # 데이터의 평균값 계산
│   ├── median()               # 데이터의 중앙값 계산
│   ├── std()                  # 데이터의 표준편차 계산
│   ├── var()                  # 데이터의 분산 계산
│   ├── sum()                  # 데이터의 합계 계산
│   ├── prod()                 # 데이터의 곱 계산
│
├── 퍼센타일 및 백분위 함수
│   ├── percentile()           # 데이터의 특정 퍼센타일 값 계산
│   ├── quantile()             # 데이터의 특정 분위 값 계산
│
├── 최소값/최대값 관련 함수
│   ├── min()                  # 데이터의 최소값 반환
│   ├── max()                  # 데이터의 최대값 반환
│   ├── argmin()               # 최소값의 인덱스 반환
│   ├── argmax()               # 최대값의 인덱스 반환
│
├── 데이터 생성 및 처리 함수
│   ├── histogram()            # 데이터의 히스토그램 계산
│   ├── unique()               # 데이터에서 고유 값 반환
│   ├── bincount()             # 정수 배열의 값의 빈도 계산
│
├── 랜덤 데이터 생성 (통계적 실험 시 사용 가능)
│   ├── random.randn()         # 표준 정규분포를 따르는 랜덤 값 생성
│   ├── random.normal()        # 정규분포를 따르는 랜덤 값 생성
│   ├── random.randint()       # 정수 범위에서 랜덤 값 생성
│   ├── random.choice()        # 데이터에서 랜덤 샘플 추출

 

 

[numpy의 random 모듈]

  • 특정 범위와 조건에 따라 데이터를 무작위로 생성하는 기능

 

 

 

기초 강의


[기술통계 vs 추론통계]

  • 기술통계는 평균, 중앙값, 분산, 표준편차 등의 대표값을 계산하여 데이터를 요약하고 설명하는 통계 방법
  • 추론통계는 신뢰구간, 가설검정 등을 사용하여 일부 데이터를 통해 전체 데이터를 추정하는 방법
  • 매출 데이터를 요약해서 살펴 보는 것 vs 일부 고객 설문조사 결과로 전체 고객 만족도 추정

 

 

[다양한 분석 방법]

  • 위치 추정 : 데이터의 중심을 확인하기 위해 평균, 중앙값 등을 확인하는 것
  • 변이 추정 : 데이터가 얼마나 다른지 확인하기 위해 분산, 표준편차, 범위(최대-최소) 등을 확인하는 것
  • 분포 탐색 : 전반적으로 데이터 값이 어떻게 이루어졌나 시각적으로 확인하는 히스토그램과 박스플롯
  • 상관관계 : 변수 간의 관련성 확인(-1 또는 1에 가까울수록 강한 상관관계)
  • 인과관계와 상관관계는 다른것임! 상관관계는 단순 관계에 대한 표현, 인과관계는 변수간의 영향력을 의미