[스파르타 내일배움캠프 / 데이터 분석 트랙] TIL(Today I Learned)_7주차

데이터 부트캠프 - Today I Learned

[스파르타 내일배움캠프 / 데이터 분석 트랙] TIL(Today I Learned)_7주차_25.01.06

onion95 2025. 1. 6. 21:21

Today's Goals

1. 다시 학습 주간에 익숙해지기 - 코드카타 SQL & 파이썬

2. 통계학...이걸 내가 또 배울 줄이야

새로운 조, 새로운 공부(통계학 시러으르ㅓ어러)

드디어 머신러닝을 배우는 주인가보다.대학원에서도 참 이해하기 힘들었던 부분인데... 하아ㅏ(벌써오열)

이번 주간도 잘 해보자고

1. 코드카타

파이썬

[sort와 sorted]

sort는 리스트형의 메서드로, 리스트 형태의 자료형을 정렬하는 기능
sorted는 내장함수로, 반복가능한(iterable) 어떤 자료형이든 정렬하여 리스트에 담아 반환함
알파벳 정렬에서 대문자는 소문자보다 작은 값으로 인식되어 오름차순의 경우 앞쪽에 정렬됨

1. 통계학

라이브 세션

[통계학에서의 자료형]

①범주형 자료

명목형 자료(Nomial data) : 순서가 의미 없는 (예 : 혈액형)
순서형 자료(Ordinal data) : 순서가 의미 있는 (예 : 학점 )

②수치형 자료

이산형 자료(Discrete data) : 두 데이터 구간이 유한, 특정 숫자 값? (예 : 사람 수)
연속형 자료(Continuous data) : 두 데이터 구간이 무한, 특정 구간 안에서 어떤 값도 가능한 (예 : 키)

범주형 자료는 인간의 언어로, 컴퓨터나 수식에 적용하기 위해서는 반드시 숫자로 변환하는 과정이 필요함(인코딩)

[중심경향치]

범주형 자료의 경우 최빈값, 수치형 자료의 경우 평균값 혹은 중앙값을 사용
평균의 경우 이상치에 민감하며, 중앙값이 이상치의 영향을 덜 받는 집단의 대표값으로 설명할 수 있음

[데이터의 퍼짐 정도를 알 수 있는 산포도]

IQR, 분산, 표준편차, 변동계수 등으로 파악할 수 있음
변동계수 = 표준편차/평균 으로 값의 스케일이 달라 분산이 달라지는 경우를 보정하기 위한 방법임 (g 단위의 값과 kg 단위의 값은 스케일이 달라 똑같은 데이터를 이용해도 분산이 달라짐)

[numpy에서 자주 쓰이는 함수]

numpy
│
├── 기본 통계 함수
│   ├── mean()                 # 데이터의 평균값 계산
│   ├── median()               # 데이터의 중앙값 계산
│   ├── std()                  # 데이터의 표준편차 계산
│   ├── var()                  # 데이터의 분산 계산
│   ├── sum()                  # 데이터의 합계 계산
│   ├── prod()                 # 데이터의 곱 계산
│
├── 퍼센타일 및 백분위 함수
│   ├── percentile()           # 데이터의 특정 퍼센타일 값 계산
│   ├── quantile()             # 데이터의 특정 분위 값 계산
│
├── 최소값/최대값 관련 함수
│   ├── min()                  # 데이터의 최소값 반환
│   ├── max()                  # 데이터의 최대값 반환
│   ├── argmin()               # 최소값의 인덱스 반환
│   ├── argmax()               # 최대값의 인덱스 반환
│
├── 데이터 생성 및 처리 함수
│   ├── histogram()            # 데이터의 히스토그램 계산
│   ├── unique()               # 데이터에서 고유 값 반환
│   ├── bincount()             # 정수 배열의 값의 빈도 계산
│
├── 랜덤 데이터 생성 (통계적 실험 시 사용 가능)
│   ├── random.randn()         # 표준 정규분포를 따르는 랜덤 값 생성
│   ├── random.normal()        # 정규분포를 따르는 랜덤 값 생성
│   ├── random.randint()       # 정수 범위에서 랜덤 값 생성
│   ├── random.choice()        # 데이터에서 랜덤 샘플 추출

[numpy의 random 모듈]

특정 범위와 조건에 따라 데이터를 무작위로 생성하는 기능

기초 강의

[기술통계 vs 추론통계]

기술통계는 평균, 중앙값, 분산, 표준편차 등의 대표값을 계산하여 데이터를 요약하고 설명하는 통계 방법
추론통계는 신뢰구간, 가설검정 등을 사용하여 일부 데이터를 통해 전체 데이터를 추정하는 방법
매출 데이터를 요약해서 살펴 보는 것 vs 일부 고객 설문조사 결과로 전체 고객 만족도 추정

[다양한 분석 방법]

위치 추정 : 데이터의 중심을 확인하기 위해 평균, 중앙값 등을 확인하는 것
변이 추정 : 데이터가 얼마나 다른지 확인하기 위해 분산, 표준편차, 범위(최대-최소) 등을 확인하는 것
분포 탐색 : 전반적으로 데이터 값이 어떻게 이루어졌나 시각적으로 확인하는 히스토그램과 박스플롯
상관관계 : 변수 간의 관련성 확인(-1 또는 1에 가까울수록 강한 상관관계)
인과관계와 상관관계는 다른것임! 상관관계는 단순 관계에 대한 표현, 인과관계는 변수간의 영향력을 의미

'데이터 부트캠프 - Today I Learned' 카테고리의 다른 글

[스파르타 내일배움캠프 / 데이터 분석 트랙] TIL(Today I Learned)_7주차_25.01.08 (0)	2025.01.08
[스파르타 내일배움캠프 / 데이터 분석 트랙] TIL(Today I Learned)_7주차_25.01.07 (0)	2025.01.07
[스파르타 내일배움캠프 / 데이터 분석 트랙] WIL(Weekly I Learned)_6주차 (0)	2025.01.05
[스파르타 내일배움캠프 / 데이터 분석 트랙] TIL(Today I Learned)_6주차_25.01.03 (1)	2025.01.03
[스파르타 내일배움캠프 / 데이터 분석 트랙] TIL(Today I Learned)_6주차_25.01.02 (0)	2025.01.02

현재글[스파르타 내일배움캠프 / 데이터 분석 트랙] TIL(Today I Learned)_7주차_25.01.06

onion95 님의 블로그

onion95 님의 블로그 입니다.

Today :
Yesterday :

프로젝트기록, 스파르타내일배움캠프, 데이터분석 부트캠프, 스파르타 내일배움캠프, til, 파이썬, 시각화, 데이터분석부트캠프, SQL프로젝트, sql, pandas, 데이터분석, 프로젝트, sql공부 일지, 데이터분석 공부일지, 오블완, 티스토리챌린지,

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

onion95 님의 블로그