
[주절주절 회고] 시간이 있었는데 없었어요이상하다 너무 정신이 없다. 분명 시간이 많은거 같았는데 눈 떠보면 21:00 ㅋㅋㅋㅋㅋㅋㅋㅋㅋ그래도 일단 계속 해.... 킵고잉....오늘은 우선 우리 프로젝트에 맞게 모델을 골라보고, 구성 요소를 설정해보는데서 만족해본다. [오늘의 강화학습]모델 선정 - 가치기반 vs 정책기반저번주에 공부한 결과, 강화학습은 정책과 Q값을 업데이트 하는 방식에 따라 두가지로 분류할 수 있었다. 우리는 0~N% 사이의 연속적인 할인율을 적용하지 않고, [10, 15, 20,,,]와 같은 이산적인 할인율을 적용할 예정이다. 실제로 패션 브랜드에서 제품의 할인율을 정할 때 특정 단위가 있기 때문. 그렇게 때문에 DQN 모델이 적합하겠다는 생각이 들었다. 구성 요소 설정에이전트 : ..