데이터 부트캠프 - Today I Learned

[스파르타 내일배움캠프 / 데이터 분석 트랙] TIL(Today I Learned)_9주차_25.01.24

onion95 2025. 1. 24. 21:25

Today's Goals

1. 기초 프로젝트 주제 선정 및 데이터 파악

 

 

 

내가 가장 보완하고 싶었던 포트폴리오 부분이 머신러닝이었는데, 그 시기가 와버렸다.

 

큰일이다 큰일이야나도 아무것도 모르는 바보인데...!

 

이번 프로젝트는 정말 공부를 많이 하면서 해야할 것 같다.

 

그래도 데이터에서 의문인 것들을 찾고, 서로 의견을 공유하는게 꽤나 재밌는 일이다.사람들과 생각을 공유하면서 내 생각도 더 확장되고 새로 배우는 것들이 생긴다.

 

 

 

 

[주제 선정]

  • 군집을 활용한 고객 세그먼트, 우선 이미 세그먼트라는 것을 해봤기 때문에 너무 같은 내용으로 구성될 것 같은 이 주제는 피하고 싶었다
  • 그나마 회귀를 활용한 중고차 가격 예측이 새롭게 배운 방법도 써보고, 마케팅이나 비즈니스적인 내용도 풀어나갈 수 있는 주제라고 생각했다
  • 회귀모델을 활용해서 중고차 가격을 예측하기로 했다

 

 

[세부 내용 계획]

  • 모든 자동차 브랜드 데이터를 합쳐서 가격을 예측하는 모델을 설계하자
  • 3가지 모델에 대해서 기본 베이스라인을 잡고, 성능을 개선시키자(변수의 영향력도 항상 같이 확인해보자)
  • 모델 학습에 포함시킬 변수 처리, 변수 조합 등에 더 꼼꼼하게 집중하자
  • 추후, 어느정도 성능의 모델이 완성되면 브랜드별 특징이 따로 있는지 EDA를 통해 확인해보자

 

 

[우선 진행해야 할 사항]

  • 선형회귀와 XGBoost 모델에 대한 베이스 라인을 잡을 예정(MSE, R^2을 성능지표로 하고, Feature Importance를 확인하여 변수의 영향력을 동시에 확인해보려고 함)
  • 데이터 수치에 의문이었던 컬럼들에 대해 좀 더 확인해봐야 함(관련 법, 시장에서의 평균적인 추세 등 배경지식 필요)