[DAY 67] 코딩테스트 연습 - 시간복잡도, 스택, 큐, 연결리스트
Special Lecture 코딩테스트 연습의 첫 번째 시간이었다. 코테 준비사항과 문제 유형 등에 대한 안내를 받고, 시간복잡도의 개념과 파이썬 리스트를 이용한 자료구조를 다루었다. 코테 준비사항, 문제 유형 준비사항 - 플랫폼에 익숙해지자 - 코드 스니펫 만드는 것을 추천 - 유용한 라이브러리 정리 - 예외처리에 유의 - 속도를 개선하자 - class 활용, 메소드 대신 슬라이싱, for loop 대신 list comprehension 등 문제 유형 알고리즘 - 정렬 - 이진 검색 - 비트 연산 - 슬라이딩 윈도우, 페이지 교체 - 분할 정복 - 그리디 알고리즘 - 다이나믹 프로그래밍 자료구조 - 선형 : 스택, 큐, 데크, 연결리스트, 해시테이블 등 - 비선형 : 그래프(최단 경로), 트리, 힙 등..
2023. 3. 31.
[DAY 64] 뉴스 토픽 분류 - KoNLpy, 어간 추출, 불용어 제거, TfidfVectorizer
데이콘 뉴스 토픽 분류 AI 경진대회를 통해 자연어 처리를 경험했다. 어간추출, 조사, 어미, 구두점 제거 및 불용어 제거 후 TfidfVectorizer를 이용해 벡터화하여 학습 및 예측을 했다. 데이터 로드 train = pd.read_csv("train_data.csv") test = pd.read_csv("test_data.csv") train은 45654행 3열, test는 9131행 2열의 데이터다. 뉴스 제목과 토픽 인덱스를 학습시킨 후, 뉴스 제목을 통해 토픽을 예측하는 경진대회다. 총 7개의 토픽으로 분류되어 있다. 텍스트 전처리 정규표현식을 사용하여 한글, 영문, 숫자가 아닌 경우 공백으로 대체했다. 그 결과 특수문자와 한자가 제거되었다. 화살표, 점, 美 등이 제거된 것을 확인할 수 ..
2023. 3. 28.
[DAY 63] 자연어 처리, BoW, Vectorizer, TF-IDF
자연어 처리(Natural Language Processing, NLP)에 대해 배웠다. 자연어처리의 의미와 활용성, 관련 용어를 익히고 scikit-learn을 이용해 실습했다. 자연어 처리(Natural Language Processing, NLP) 자연어와 자연어 처리 자연어란 인간이 일상생활에서 사용하는 언어로, 자연어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 것이 자연어 처리다. 기계에게 인간의 언어를 이해시키는 인공지능의 분야 중 하나 자연어 처리로 할 수 있는 일 음성 인식, 내용 요약, 번역 등 감정 분석(긍정/부정 등) 텍스트 분류(스팸 메일 분류, 뉴스 기사 카테고리 분류 등) 질의응답 시스템, 챗봇 등 자연어 분류 과정 데이터 로드(텍스트 데이터) -> 데이터 전처리 -> 데..
2023. 3. 27.