본문 바로가기
AI SCHOOL/TIL

[DAY 87] 파이널프로젝트 2일차 - 데이터 전처리

2023. 4. 28.

20230428(금) 파이널 프로젝트 2일차

추천시스템에 사용할 데이터셋을 전처리했다.

데이터 전처리

수집한 데이터의 최초 형태는 아래와 같다.

df
전처리 전

데이터프레임의 재료 컬럼이 리스트 형태의 문자열이었다.

텍스트 벡터화를 하기 전 대괄호, 따옴표, 쉼표를 제거한 문자열로 변환할 필요가 있었다.

process

위 방법으로 각 재료가 하나의 원소로 들어가 있는 리스트 형태의 문자열을 각 재료가 공백으로 구분된 문자열로 변경할 수 있었다.
또한 괄호를 통해 제시되는 재료에 대한 추가적 설명은 정규표현식을 사용하여 제거했고, 재료가 중복되어 있는 경우도 중복을 제거해 주었다. Built in function eval에 대한 리마인드가 되었다

processed
전처리 후

결과적으로 이렇게 재료에 대한 전처리가 되었다.

계획 발표

점심식사 후 1~9팀의 파이널 프로젝트 계획 발표가 있었다.
의료 데이터, HR 데이터, 스포츠 데이터, 금융 데이터 등 팀 별로 특색이 있었다. 각각 어떤 결과를 보여줄지 기대가 된다.


계획 발표 시간 이후 추가적으로 전처리를 했다.
송송 썬 파 등의 수식어를 제거하고, 다진 마늘은 띄어쓰기를 제거하는 등 코드로 처리되지 않은 부분을 색출해서 처리했다. 모든 부분이 정말 아주 깔끔하게 전처리된 데이터를 사용한다면 물론 좋겠지만, 더 이상 처리는 추천 시스템 동작에 크게 유의미하지 않을 것 같으며 그 과정이 쉽지 않기 때문에 이 정도 선에서 만족하고 시스템 구현을 시작할 예정이다.

반응형

댓글