20230428(금) 파이널 프로젝트 2일차
추천시스템에 사용할 데이터셋을 전처리했다.
데이터 전처리
수집한 데이터의 최초 형태는 아래와 같다.
데이터프레임의 재료 컬럼이 리스트 형태의 문자열이었다.
텍스트 벡터화를 하기 전 대괄호, 따옴표, 쉼표를 제거한 문자열로 변환할 필요가 있었다.
위 방법으로 각 재료가 하나의 원소로 들어가 있는 리스트 형태의 문자열을 각 재료가 공백으로 구분된 문자열로 변경할 수 있었다.
또한 괄호를 통해 제시되는 재료에 대한 추가적 설명은 정규표현식을 사용하여 제거했고, 재료가 중복되어 있는 경우도 중복을 제거해 주었다. Built in function eval에 대한 리마인드가 되었다
결과적으로 이렇게 재료에 대한 전처리가 되었다.
계획 발표
점심식사 후 1~9팀의 파이널 프로젝트 계획 발표가 있었다.
의료 데이터, HR 데이터, 스포츠 데이터, 금융 데이터 등 팀 별로 특색이 있었다. 각각 어떤 결과를 보여줄지 기대가 된다.
계획 발표 시간 이후 추가적으로 전처리를 했다.
송송 썬 파 등의 수식어를 제거하고, 다진 마늘은 띄어쓰기를 제거하는 등 코드로 처리되지 않은 부분을 색출해서 처리했다. 모든 부분이 정말 아주 깔끔하게 전처리된 데이터를 사용한다면 물론 좋겠지만, 더 이상 처리는 추천 시스템 동작에 크게 유의미하지 않을 것 같으며 그 과정이 쉽지 않기 때문에 이 정도 선에서 만족하고 시스템 구현을 시작할 예정이다.
반응형
'AI SCHOOL > TIL' 카테고리의 다른 글
[DAY 89] 파이널프로젝트 4일차 - 중간 제출 (0) | 2023.05.03 |
---|---|
[DAY 88] 파이널프로젝트 3일차 - KR-SBERT, OpenAI (0) | 2023.05.01 |
[DAY 86] 파이널프로젝트 시작 - 데이터 수집 (0) | 2023.04.27 |
[DAY 85] AI School 8기 마지막 강의 Github, Streamlit (0) | 2023.04.26 |
[DAY 84] Content based recommendation system 콘텐츠 기반 추천 시스템 (0) | 2023.04.25 |
댓글