Today's Goals
1. 스토리 라인 완성하기
2. 모델에 변수 다양하게 적용해보기
3. 사용할 변수 확정해서 PPT 정리
지난 명절에는 시골에 내려가서 하루종일 프로젝트 고민을 했다. (애증)
모든게 다 좋은데 이 데이터를 사용하는 상황이 명확하게 설정되지 않아서 목표가 자꾸 바뀌는게 힘들었다.
그러니까...페르소나를 만들어야...해.... 으아아ㅏ
고민 끝에 유레카
1. 스토리 라인 완성하기
[중고차 가격 예측해서 뭐할건데...]
- 중고차 가격 예측을 해야하는 상황 설정이 불확실하니 어떤 데이터를 사용할 것인가부터 문제가 생김
- 무엇을 위해 중고차 가격을 예측하는지 정해져야 함
[중고차 시장 흐름에 대해 알고있던 내용을 떠올려보자]
- 헤이딜러 등의 중고차 시장이 핫해질 무렵, 현대차에서 자사 차량의 중고차 거래 시장에 직접 뛰어들겠다 했던 뉴스와 현대캐피탈의 중고차 서비스 및 글로벌 진출 비전이 생각남(
현대 가고싶어하던 과거의 나 칭찬해) - 모든 브랜드의 중고차 가격을 예측할 필요 없이, 현대 직원으로서 글로벌 프로젝트에 투입되었다고 생각하고 현대차 데이터에 집중하자!
[영국 내 신차 및 중고차 시장 현황 파악]
- 실제로 영국 내에서 현대차 판매량은 높아지는 추세인 것으로 확인
- 높아진 수요에 따라 중고차 수요도 함께 상승할 것으로 예상
- 따라서 국내에서 운영되는 현대의 중고차 서비스를 영국에서 시범 사업 한다는 가정 하에, 중고차 시세 예측 서비스가 필요할 것으로 판단
2. 모델에 변수 다양하게 적용해보기
[차원 축소를 하면 모델 성능은 좋아지는가]
- 머신러닝 공부를 하면서 다양한 차원 축소 방법을 배움
- 그렇다면 차원 축소는 항상 성능 개선에 도움이 되는가?
- 우리의 데이터에서 종속변수와 가장 상관관계가 낮고, 모델에 영향력이 낮았던 변수들을 제거해봄
- 제거할수록 성능은 계속 하락
- 그렇다면, 상관관계가 높은 독립변수들을 하나로 줄이는 차원 축소는?
- 이 또한 성능은 하락
- 차원 축소가 필요한 정도의 데이터가 아니라는 판단 후 차원 축소는 진행하지 않기로 함
[EDA 결과를 기반으로 데이터를 수정하면 성능이 좋아지는가]
- 데이터 분포가 연속적이지 않고, 이상치 여부를 확실하게 파악할 수 없는 tax 컬럼은 범주형 변수로 변환
- 일반적으로 비현실적인 mpg(연비)로 판단되는 이상치 삭제(iqr 기반)
- 주행거리의 경우, 이상치로 판별되어도 비현실적인 수치가 아니었기 때문에 삭제하지 않음
- 최종적인 데이터 적용 결과 모델의 성능은 개선됨
[반대로 변수가 증가하면 성능은 떨어지는가]
- 연식과 주행거리 변수를 하나로 함축했을 때, 성능은 떨어지는 결과를 보였음
- 반대로 변수를 하나로 줄이지 않고, 하나를 추가한 경우, XGBoost를 제외한 모델은 성능 개선
[하이퍼 파라미터 튜닝은 눈에 띄는 변화를 가져오는가]
- 랜덤포레스트와 XGBoost의 최적 파라미터를 찾은 결과, 성능 지표 소폭 상승
'데이터 부트캠프 - Today I Learned' 카테고리의 다른 글
[스파르타 내일배움캠프 / 데이터 분석 트랙] TIL(Today I Learned)_12주차_25.02.11 (0) | 2025.02.11 |
---|---|
[스파르타 내일배움캠프 / 데이터 분석 트랙] TIL(Today I Learned)_11주차_25.02.07 (0) | 2025.02.07 |
[스파르타 내일배움캠프 / 데이터 분석 트랙] TIL(Today I Learned)_10주차_25.01.27 (0) | 2025.01.28 |
[스파르타 내일배움캠프 / 데이터 분석 트랙] TIL(Today I Learned)_9주차_25.01.24 (0) | 2025.01.24 |
[스파르타 내일배움캠프 / 데이터 분석 트랙] TIL(Today I Learned)_9주차_25.01.23 (0) | 2025.01.23 |