본문 바로가기

AI SCHOOL/TIL101

[DAY 96] 데이터톤 3일차 - 데이터 분석 데이터톤 3일차 풀필먼트 서비스 시범 도입을 제안할 매장을 선정하기 위해 데이터를 분석해 봤다. 어떤 매장을 전환 대상으로 지정할지 결정하는 근거 마련이 어려웠다. 매출, 매장 데이터 분석 위 데이터는 날짜, 매장 번호, 품목별 매출 데이터에 일별 유가, 매장 정보를 병합한 데이터다. 다른 변수들은 모두 매우 직관적이지만 type와 cluster는 직관적이지 않았다. 각각 어떤 의미인지 알아내고 싶었다. 클러스터별로 매출 합계에 차이가 많이 나는 것을 알 수 있었다. 클러스터별로 속한 매장 수의 차이가 있기 때문에 그런 것 같다. 타입별로 각 매장 매출 합계의 평균을 살폈다. 확실히 A 타입의 매장 매출이 높고 C 타입은 낮은 것이 보인다. 클러스터와 타입별 매출을 확인했고 각 매장이 어느 도시에 위치하.. 2023. 5. 12.
[DAY 95] 데이터톤 2일차 - 아이디어 발상, 방향 설정 데이터톤 2일차 데이터셋을 로드하여 천천히 살펴봤다. 어떤 시나리오로 나아갈지 고민하고 방향을 설정했다. 방향 설정 에콰도르 대형 마켓 Corporación Favorita에 대한 데이터셋이 다소 생소했지만 이번 프로젝트를 진행하기 위해 상황을 설정해야 했다. 팀원 분들의 아이디어로는 수출 및 지사 설립, 도매와 유통 채널, 유가와 경제성장, 보따리 상인 관련 내용 등이 나왔으나 결론적으로 대주제는 풀필먼트(fulfillment) 신사업 시작을 위해 TF팀을 꾸린 상황을 가정하여 시스템 도입 시나리오를 구상해보는 것으로 결정했다. 관련 사항에 대해 더 알아보고 구체적인 시나리오가 완성될 것 같다. 그리고 타깃(데이터 분석 의뢰자, 여기선 Favorita CEO?) 역할은 비즈니스적 가치 판단에 대해 끊임.. 2023. 5. 11.
[DAY 94] 파이널프로젝트 종합회고, 데이터톤 시작 어제 못 한 종합회고를 오전에 진행했다. 오후에는 데이터톤이 시작되었다. 파이널프로젝트 종합회고 기억에 남는 프로젝트(팀) 투표, 셀프 리뷰, 피어 리뷰를 작성했다. 미드프로젝트1에선 압도적으로 마음에 드는 팀이 있었고, 미드프로젝트2에선 마음에 드는 팀이 딱히 없었는데 이번 파이널프로젝트는 마음에 드는 팀이 많아서 한 팀을 선정하기 쉽지 않았다. 셀프 리뷰는 평소에 스스로 느끼고 있던 부분이 있었기 때문에 자기객관화 느낌으로 작성했다. 피어 리뷰에서는 팀원의 성향(도전의식, 속도감, 지향점, 감성/이성, 내향/외향, 커뮤니케이션 타입 등) 작성을 속도감 있게 할 수 있었다. 아무래도 오랜 시간 함께 했다 보니 그런 것 같다. 그러나 팀원의 개선점을 적으려니 딱히 생각나는 것이 없었다. 팀원으로서 정말 .. 2023. 5. 10.
[DAY 93] 파이널프로젝트 발표와 피드백 오전 시간에 최종적으로 이번 프로젝트 결과를 정리하는 시간을 가졌다. 점심시간 후 팀별 발표와 현업자의 피드백이 있었다. 오전 최종 코드를 취합하고 발표의 흐름을 정리했으며 데모 동영상을 촬영했다. 휴일, 밤낮없이 열심히 달려왔기 때문에 프로젝트 산출물을 보니 참 후련했다. 오후 13시부터 발표 준비 시간을 가진 후 14시부터 랜덤 순서로 팀별 발표와 현업자 피드백 시간이었다. 주제 선정과 팀 구성을 자유롭게 한 프로젝트였기 때문에 팀마다 색깔이 분명해서 재미있었다. 크게는 데이터 분석에 초점을 맞춘 팀, 머신러닝에 맞춘 팀, 딥러닝을 활용한 팀으로 나뉘었고 내용이 비슷한 팀이 없는 점이 보는 입장에서 좋았다. 주제는 달랐지만 다른 팀에게 배울 점이 많았다. 근거, 구현 과정, 가설 설정과 검증, 전달력.. 2023. 5. 9.
[DAY 92] 파이널프로젝트 7일차 - 마무리 파이널프로젝트 7일차 마무리 최종 트랜스포머 모델과 임베딩 피처를 결정하고 추천 플로우를 구현했다. 스트림릿으로 이를 확인한다. 임베딩 모델 변경 최종 모델을 결정했다. RoBERTa 기반의 pretrained SentenceTransformer ko-sroberta-multitask을 사용한다. raw_recipes = pd.read_csv('data/raw_recipes.csv') raw_recipes.head(5) raw data 확인 df = pd.read_pickle('data/compact_kosroberta_recipes.pkl') df.head(5) 전처리 완료 데이터 확인 벡터화된 컬럼이 보인다. 벡터화를 할 feature는 재료 뿐 아니라 요리 이름, 방법 등을 추가로 포함했다. 모델과.. 2023. 5. 8.
반응형