이 프로젝트의 경우 첫 개인 프로젝트라고도 할 수 있으며 가장 많은 시간을 쏟았고,
가장 많은 우여곡절을 겪었던 프로젝트였다.
시작은 데이콘의 대회를 진행하면서 단순하게 했었는데 관련된 각종 논문들을 보면서 조금 더 관심이 가게되어 선행시간별 분석 이라는 키워드를 떠올리고 진행하게 되었다.
처음에는 매우 간단하게 빠르게 코드를 작성했던 것 같다.
단순하게 데이터를 zip파일로 수집하고, 모델도 한번 만들어보고 지우고 만들어보고 지우고.
그러나 계속 이러한 과정을 반복하면서 뭔가 쉽고 편리하게 깔끔하게 코드를 작성하고 싶었다.
그래서 제일 먼저 한 것이 우선 api를 이용하여 데이터를 수집할 수 있게하였다.
이후 매우 큰 시련을 겪었었는데 모든 프로젝트 데이터를 가지고있던 usb가 고장이났고 돈을 주고라도 수리하고 싶었으나 너무 큰 손상을 입어서 수리할 수 없었다.
이후 이전 결과의 재현 및 프로젝트 관리의 중요성을 알게되었다…
그래서 데이터를 수집하고 전처리하는 과정을 py파일로 만들어서 언제나 쉽게 데이터의 기간을 바꿔보고, 누구든 사용해볼 수 있도록 만들어보고자 했다. 이 과정은 굳이 필요없지만 내 경험을 쌓자라는 느낌으로 진행했던 것 같다.
모델링도 마찬가지였다. 많은 모델들을 사용해보고 automl도 다양하게 사용해보고 LSTM, GRU도 사용했었는데 선행시간별로 모델을 만들고 다양한 파라미터 실험을 하다보니 정리가 안됐다. 또한 반복되는 코드로 인해 너무 지저분해지고 하루 이틀만 다른 것을 하더라고 코드가 이해하기 어려웠다.
그래서 모델의 학습 및 평가하는 것을 모두 함수화시켜서 선행시간별로 실험을 진행할때 파라미터만 수정하여 간단하게 모델을 평가할 수 있도록하고 이후에는 클래스를 공부하여 모델객체를 만들어서 더욱 쉽고 편리하게 실험을 할 수 있도록 구성하였다.
사실 결과 자체만 본다면 이전에 나왔던 선행연구와 크게 다르지 않고 새로운 아이디어라는 것도 없다고 볼 수 있지만, 다양한 실험을 통해서 어떤 방법이 좋은지를 직접 찾아가봤고 편리하게, 쉽게, 깔금하게 만드려고 노력하면서 정말 다양한 라이브러리, 코드 리팩토링을 진행하면서 많은 경험을 쌓았던 것 같다.