목록나이브 베이즈 분류 (1)
차밍이
[R] 나이브 베이즈를 활용한 스팸메일 분류와 텍스트 마이닝
나이브 베이즈 분류를 사용해서 미국 고등학생들의 sms 데이터를 분석 해보겠습니다. sms데이터를 분석하기 위해서는 우선 텍스트 데이터를 정리하는 전처리 과정이 필요합니다. 1. 데이터 전처리 기본 데이터 셋팅 sms_raw 4812 747 데이터 마이닝 텍스트를 분석하기 위해서 문장을 Corpus로 만들어 주어야합니다. 말뭉치 또는 코퍼스(영어: corpus, 복수형: corpora)는 자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합이다 from 위키백과. 간단하게 단어 집합이라고 생각하면됩니다. 코퍼스가 만들어지면 메모리에 데이터가 저장됩니다. 따라서 너무 많은 데이터는 메모리 터짐현상을 발생시킬 수 있습니다. 주의 ㅎ VCorpus를 사용해서 코퍼스를 만들기 위해서는 먼저 벡터..
R/데이터 사이언스
2020. 2. 11. 20:15