[DAY 64] 뉴스 토픽 분류 - KoNLpy, 어간 추출, 불용어 제거, TfidfVectorizer
데이콘 뉴스 토픽 분류 AI 경진대회를 통해 자연어 처리를 경험했다. 어간추출, 조사, 어미, 구두점 제거 및 불용어 제거 후 TfidfVectorizer를 이용해 벡터화하여 학습 및 예측을 했다. 데이터 로드 train = pd.read_csv("train_data.csv") test = pd.read_csv("test_data.csv") train은 45654행 3열, test는 9131행 2열의 데이터다. 뉴스 제목과 토픽 인덱스를 학습시킨 후, 뉴스 제목을 통해 토픽을 예측하는 경진대회다. 총 7개의 토픽으로 분류되어 있다. 텍스트 전처리 정규표현식을 사용하여 한글, 영문, 숫자가 아닌 경우 공백으로 대체했다. 그 결과 특수문자와 한자가 제거되었다. 화살표, 점, 美 등이 제거된 것을 확인할 수 ..
2023. 3. 28.
[DAY 63] 자연어 처리, BoW, Vectorizer, TF-IDF
자연어 처리(Natural Language Processing, NLP)에 대해 배웠다. 자연어처리의 의미와 활용성, 관련 용어를 익히고 scikit-learn을 이용해 실습했다. 자연어 처리(Natural Language Processing, NLP) 자연어와 자연어 처리 자연어란 인간이 일상생활에서 사용하는 언어로, 자연어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 것이 자연어 처리다. 기계에게 인간의 언어를 이해시키는 인공지능의 분야 중 하나 자연어 처리로 할 수 있는 일 음성 인식, 내용 요약, 번역 등 감정 분석(긍정/부정 등) 텍스트 분류(스팸 메일 분류, 뉴스 기사 카테고리 분류 등) 질의응답 시스템, 챗봇 등 자연어 분류 과정 데이터 로드(텍스트 데이터) -> 데이터 전처리 -> 데..
2023. 3. 27.