데이터 부트캠프 - Today I Learned

[스파르타 내일배움캠프 / 데이터 분석 트랙] TIL(Today I Learned)_11주차_25.02.03

onion95 2025. 2. 3. 22:16

Today's Goals

1. 스토리 라인 완성하기

2. 모델에 변수 다양하게 적용해보기

3. 사용할 변수 확정해서 PPT 정리

 

 

 

 

지난 명절에는 시골에 내려가서 하루종일 프로젝트 고민을 했다. (애증)

모든게 다 좋은데 이 데이터를 사용하는 상황이 명확하게 설정되지 않아서 목표가 자꾸 바뀌는게 힘들었다.

그러니까...페르소나를 만들어야...해.... 으아아ㅏ

 

고민 끝에 유레카

 

 

 

 

 

1. 스토리 라인 완성하기


[중고차 가격 예측해서 뭐할건데...]

  • 중고차 가격 예측을 해야하는 상황 설정이 불확실하니 어떤 데이터를 사용할 것인가부터 문제가 생김
  • 무엇을 위해 중고차 가격을 예측하는지 정해져야 함

 

 

[중고차 시장 흐름에 대해 알고있던 내용을 떠올려보자]

  • 헤이딜러 등의 중고차 시장이 핫해질 무렵, 현대차에서 자사 차량의 중고차 거래 시장에 직접 뛰어들겠다 했던 뉴스와 현대캐피탈의 중고차 서비스 및 글로벌 진출 비전이 생각남(현대 가고싶어하던 과거의 나 칭찬해)
  • 모든 브랜드의 중고차 가격을 예측할 필요 없이, 현대 직원으로서 글로벌 프로젝트에 투입되었다고 생각하고 현대차 데이터에 집중하자!

 

 

[영국 내 신차 및 중고차 시장 현황 파악]

  • 실제로 영국 내에서 현대차 판매량은 높아지는 추세인 것으로 확인
  • 높아진 수요에 따라 중고차 수요도 함께 상승할 것으로 예상
  • 따라서 국내에서 운영되는 현대의 중고차 서비스를 영국에서 시범 사업 한다는 가정 하에, 중고차 시세 예측 서비스가 필요할 것으로 판단

 

 

 

 

2. 모델에 변수 다양하게 적용해보기


[차원 축소를 하면 모델 성능은 좋아지는가]

  • 머신러닝 공부를 하면서 다양한 차원 축소 방법을 배움
  • 그렇다면 차원 축소는 항상 성능 개선에 도움이 되는가?
  • 우리의 데이터에서 종속변수와 가장 상관관계가 낮고, 모델에 영향력이 낮았던 변수들을 제거해봄
  • 제거할수록 성능은 계속 하락
  • 그렇다면, 상관관계가 높은 독립변수들을 하나로 줄이는 차원 축소는?
  • 이 또한 성능은 하락
  • 차원 축소가 필요한 정도의 데이터가 아니라는 판단 후 차원 축소는 진행하지 않기로 함

 

 

[EDA 결과를 기반으로 데이터를 수정하면 성능이 좋아지는가]

  • 데이터 분포가 연속적이지 않고, 이상치 여부를 확실하게 파악할 수 없는 tax 컬럼은 범주형 변수로 변환
  • 일반적으로 비현실적인 mpg(연비)로 판단되는 이상치 삭제(iqr 기반)
  • 주행거리의 경우, 이상치로 판별되어도 비현실적인 수치가 아니었기 때문에 삭제하지 않음
  • 최종적인 데이터 적용 결과 모델의 성능은 개선됨

 

 

[반대로 변수가 증가하면 성능은 떨어지는가]

  • 연식과 주행거리 변수를 하나로 함축했을 때, 성능은 떨어지는 결과를 보였음
  • 반대로 변수를 하나로 줄이지 않고, 하나를 추가한 경우, XGBoost를 제외한 모델은 성능 개선

 

 

[하이퍼 파라미터 튜닝은 눈에 띄는 변화를 가져오는가]

  • 랜덤포레스트와 XGBoost의 최적 파라미터를 찾은 결과, 성능 지표 소폭 상승