Today's Goals
1. 다시 학습 주간에 익숙해지기 - 코드카타 SQL & 파이썬
2. 통계학...이걸 내가 또 배울 줄이야
새로운 조, 새로운 공부(통계학 시러으르ㅓ어러)
드디어 머신러닝을 배우는 주인가보다.대학원에서도 참 이해하기 힘들었던 부분인데... 하아ㅏ(벌써오열)
이번 주간도 잘 해보자고
1. 코드카타
파이썬
[sort와 sorted]
- sort는 리스트형의 메서드로, 리스트 형태의 자료형을 정렬하는 기능
- sorted는 내장함수로, 반복가능한(iterable) 어떤 자료형이든 정렬하여 리스트에 담아 반환함
- 알파벳 정렬에서 대문자는 소문자보다 작은 값으로 인식되어 오름차순의 경우 앞쪽에 정렬됨
1. 통계학
라이브 세션
[통계학에서의 자료형]
①범주형 자료
- 명목형 자료(Nomial data) : 순서가 의미 없는 (예 : 혈액형)
- 순서형 자료(Ordinal data) : 순서가 의미 있는 (예 : 학점 )
②수치형 자료
- 이산형 자료(Discrete data) : 두 데이터 구간이 유한, 특정 숫자 값? (예 : 사람 수)
- 연속형 자료(Continuous data) : 두 데이터 구간이 무한, 특정 구간 안에서 어떤 값도 가능한 (예 : 키)
- 범주형 자료는 인간의 언어로, 컴퓨터나 수식에 적용하기 위해서는 반드시 숫자로 변환하는 과정이 필요함(인코딩)
[중심경향치]
- 범주형 자료의 경우 최빈값, 수치형 자료의 경우 평균값 혹은 중앙값을 사용
- 평균의 경우 이상치에 민감하며, 중앙값이 이상치의 영향을 덜 받는 집단의 대표값으로 설명할 수 있음
[데이터의 퍼짐 정도를 알 수 있는 산포도]
- IQR, 분산, 표준편차, 변동계수 등으로 파악할 수 있음
- 변동계수 = 표준편차/평균 으로 값의 스케일이 달라 분산이 달라지는 경우를 보정하기 위한 방법임 (g 단위의 값과 kg 단위의 값은 스케일이 달라 똑같은 데이터를 이용해도 분산이 달라짐)
[numpy에서 자주 쓰이는 함수]
numpy
│
├── 기본 통계 함수
│ ├── mean() # 데이터의 평균값 계산
│ ├── median() # 데이터의 중앙값 계산
│ ├── std() # 데이터의 표준편차 계산
│ ├── var() # 데이터의 분산 계산
│ ├── sum() # 데이터의 합계 계산
│ ├── prod() # 데이터의 곱 계산
│
├── 퍼센타일 및 백분위 함수
│ ├── percentile() # 데이터의 특정 퍼센타일 값 계산
│ ├── quantile() # 데이터의 특정 분위 값 계산
│
├── 최소값/최대값 관련 함수
│ ├── min() # 데이터의 최소값 반환
│ ├── max() # 데이터의 최대값 반환
│ ├── argmin() # 최소값의 인덱스 반환
│ ├── argmax() # 최대값의 인덱스 반환
│
├── 데이터 생성 및 처리 함수
│ ├── histogram() # 데이터의 히스토그램 계산
│ ├── unique() # 데이터에서 고유 값 반환
│ ├── bincount() # 정수 배열의 값의 빈도 계산
│
├── 랜덤 데이터 생성 (통계적 실험 시 사용 가능)
│ ├── random.randn() # 표준 정규분포를 따르는 랜덤 값 생성
│ ├── random.normal() # 정규분포를 따르는 랜덤 값 생성
│ ├── random.randint() # 정수 범위에서 랜덤 값 생성
│ ├── random.choice() # 데이터에서 랜덤 샘플 추출
[numpy의 random 모듈]
- 특정 범위와 조건에 따라 데이터를 무작위로 생성하는 기능
기초 강의
[기술통계 vs 추론통계]
- 기술통계는 평균, 중앙값, 분산, 표준편차 등의 대표값을 계산하여 데이터를 요약하고 설명하는 통계 방법
- 추론통계는 신뢰구간, 가설검정 등을 사용하여 일부 데이터를 통해 전체 데이터를 추정하는 방법
- 매출 데이터를 요약해서 살펴 보는 것 vs 일부 고객 설문조사 결과로 전체 고객 만족도 추정
[다양한 분석 방법]
- 위치 추정 : 데이터의 중심을 확인하기 위해 평균, 중앙값 등을 확인하는 것
- 변이 추정 : 데이터가 얼마나 다른지 확인하기 위해 분산, 표준편차, 범위(최대-최소) 등을 확인하는 것
- 분포 탐색 : 전반적으로 데이터 값이 어떻게 이루어졌나 시각적으로 확인하는 히스토그램과 박스플롯
- 상관관계 : 변수 간의 관련성 확인(-1 또는 1에 가까울수록 강한 상관관계)
- 인과관계와 상관관계는 다른것임! 상관관계는 단순 관계에 대한 표현, 인과관계는 변수간의 영향력을 의미
'데이터 부트캠프 - Today I Learned' 카테고리의 다른 글
[스파르타 내일배움캠프 / 데이터 분석 트랙] TIL(Today I Learned)_7주차_25.01.08 (0) | 2025.01.08 |
---|---|
[스파르타 내일배움캠프 / 데이터 분석 트랙] TIL(Today I Learned)_7주차_25.01.07 (0) | 2025.01.07 |
[스파르타 내일배움캠프 / 데이터 분석 트랙] WIL(Weekly I Learned)_6주차 (0) | 2025.01.05 |
[스파르타 내일배움캠프 / 데이터 분석 트랙] TIL(Today I Learned)_6주차_25.01.03 (1) | 2025.01.03 |
[스파르타 내일배움캠프 / 데이터 분석 트랙] TIL(Today I Learned)_6주차_25.01.02 (0) | 2025.01.02 |