목록나이브 베이즈 (2)
차밍이
R을 사용한 감성분석 케글의 영화 평점 분석 데이터를 사용하여 감성 분석을 진행하겠습니다. 텍스트 전처리, 데이터 전처리, 자연어 처리(NLP), 텍스트 마이닝을 진행한 후 정제된 데이터를 바탕으로 베이지안 필터기와 의사결정나무 모델을 사용해서 데이터를 분류해보겠습니다. 그 결과 어느 정도의 정확도를 보여줄 것인지 확인해보겠습니다. 작업환경은 구글의 코랩(Colab)에서 진행하였습니다. 데이터의 크기가 커서 좀 더 나은 환경을 위해서 코랩에서 진행했습니다. 집 컴퓨터의 메모리와 cpu가 좋다면 로컬에서 작업하시는 것이 좋을 수도 있습니다. (Colab에서 R 사용하기) 라이브러리 및 환경설정 # 파이썬에서 R 사용하는 환경설정 import rpy2 %load_ext rpy2.ipython # 구글 드라이..
나이브 베이즈 분류를 사용해서 미국 고등학생들의 sms 데이터를 분석 해보겠습니다. sms데이터를 분석하기 위해서는 우선 텍스트 데이터를 정리하는 전처리 과정이 필요합니다. 1. 데이터 전처리 기본 데이터 셋팅 sms_raw 4812 747 데이터 마이닝 텍스트를 분석하기 위해서 문장을 Corpus로 만들어 주어야합니다. 말뭉치 또는 코퍼스(영어: corpus, 복수형: corpora)는 자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합이다 from 위키백과. 간단하게 단어 집합이라고 생각하면됩니다. 코퍼스가 만들어지면 메모리에 데이터가 저장됩니다. 따라서 너무 많은 데이터는 메모리 터짐현상을 발생시킬 수 있습니다. 주의 ㅎ VCorpus를 사용해서 코퍼스를 만들기 위해서는 먼저 벡터..