목록R (5)
차밍이
미국 의료비 데이터를 활용해서 환자들의 의료비를 예측하는 모델을 만들어보겠습니다. 데이터는 케글에 있는 데이터를 활용했습니다. 데이터 확인 # 미국 환자 의료비 데이터 insurance> # 'data.frame': 1338 obs. of 7 variables: # $ age : int 19 18 28 33 32 31 46 37 37 60 ... # $ sex : Factor w/ 2 levels "female","male": 1 2 2 2 2 1 1 1 2 1 ... # $ bmi : num 27.9 33.8 33 22.7 28.9 25.7 33.4 27.7 29.8 25.8 ... # $ children: int 0 1 3 0 0 0 1 3 2 0 ... # $ smoker : Factor w/ 2 ..
나이브 베이즈 분류를 사용해서 미국 고등학생들의 sms 데이터를 분석 해보겠습니다. sms데이터를 분석하기 위해서는 우선 텍스트 데이터를 정리하는 전처리 과정이 필요합니다. 1. 데이터 전처리 기본 데이터 셋팅 sms_raw 4812 747 데이터 마이닝 텍스트를 분석하기 위해서 문장을 Corpus로 만들어 주어야합니다. 말뭉치 또는 코퍼스(영어: corpus, 복수형: corpora)는 자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합이다 from 위키백과. 간단하게 단어 집합이라고 생각하면됩니다. 코퍼스가 만들어지면 메모리에 데이터가 저장됩니다. 따라서 너무 많은 데이터는 메모리 터짐현상을 발생시킬 수 있습니다. 주의 ㅎ VCorpus를 사용해서 코퍼스를 만들기 위해서는 먼저 벡터..
R을 확용한 나이브 베이즈 분류기를 만들어 보겠습니다. 배우는 단계에서 기초적인 내용임을 사전에 알려드립니다. 데이터는 UCI의 공개데이터인 Mushroom를 csv파일로 배포된 것을 사용하였습니다. 데이터를 다운받아 같이 공부해보면 좋을 것 같아요. 아래에 파일을 참조하였습니다. 1. 라이브러리 library(gmodels) library(e1071) 사용한 라이브러리는 위의 두 개입니다. e1071은 나이브 베이즈 분류기를 사용하기 위해서 불러왔습니다. 그 외에도 다양한 머신러닝 알고리즘이 들어있다고 합니다. gmodels는 평가할 때, CrossTable을 사용해서 평가하기 위해서 불러왔습니다. 2. 데이터 확인하기 mushroom
위스콘신대학에서 발행한 암환자 데이터를 바탕으로 종양인지 아닌지를 판단하는 모델을 만들어 보겠습니다. 사용언어 : R 사용모델 : KNN library(gmodels) # Crosstable 보기 위한 라이브러리 library(class) # knn이 class 라이브러리에 들어있음 wbcd
1. R 이란 ? R은 통계 컴퓨팅과 그래픽을 위한 무료 소프트웨어 환경입니다. 매우 다양한 유닉스 플랫폼인 윈도우와 맥OS에서 컴파일되고 실행됩지다. 다른 언어들에 비해 조금 유연한 문법으로 사용이 편리합니다. 사용이 매우 쉬워 금방 배울 수 있는 장점을 가지고 있습니다. 특히나 데이터 분석과 시각화 측면에 매우 뛰어납니다. 2. R 설치하기 전 확인사항 R 프로그램을 설치하고 사용하기 위해서는 기본 적인 환경 설정이 필요합니다. 사용자 명이 영어로 되어있는지 확인한다. 컴퓨터 이름이 영어로 되어있는지 확인한다. 폴더 경로가 영어로만 이루어져 있는지 확인한다. 아주 필수적인 내용입니다. 윈도우10 설치할 떄 마이크로소프트 아이디 넣으면 자동으로 컴퓨터 이름을 저의 한글 이름으로 설정해버려서 저도 고생했..