목록R/데이터 사이언스 (8)
차밍이

미국 의료비 데이터를 활용해서 환자들의 의료비를 예측하는 모델을 만들어보겠습니다. 데이터는 케글에 있는 데이터를 활용했습니다. 데이터 확인 # 미국 환자 의료비 데이터 insurance> # 'data.frame': 1338 obs. of 7 variables: # $ age : int 19 18 28 33 32 31 46 37 37 60 ... # $ sex : Factor w/ 2 levels "female","male": 1 2 2 2 2 1 1 1 2 1 ... # $ bmi : num 27.9 33.8 33 22.7 28.9 25.7 33.4 27.7 29.8 25.8 ... # $ children: int 0 1 3 0 0 0 1 3 2 0 ... # $ smoker : Factor w/ 2 ..

neuralnet 라이브러리 R에서 딥러닝 모델을 생성해서 사용할 수 있는 라이브러리입니다. neuralnet을 사용하면 인공신경망을 구성해서 신경망을 바탕으로 한 기초적인 모델 생성과 예측을 진행하겠습니다. 캘리포니아 대학에서 무료 배포한 콘크리트 구성물 데이터를 사용했습니다. 콘크리트의 강도를 예측하는 모델을 만들어보겠습니다. 데이터 구성이 어떻게 되는지 확인해보겠습니다. concrete

R을 사용한 감성분석 케글의 영화 평점 분석 데이터를 사용하여 감성 분석을 진행하겠습니다. 텍스트 전처리, 데이터 전처리, 자연어 처리(NLP), 텍스트 마이닝을 진행한 후 정제된 데이터를 바탕으로 베이지안 필터기와 의사결정나무 모델을 사용해서 데이터를 분류해보겠습니다. 그 결과 어느 정도의 정확도를 보여줄 것인지 확인해보겠습니다. 작업환경은 구글의 코랩(Colab)에서 진행하였습니다. 데이터의 크기가 커서 좀 더 나은 환경을 위해서 코랩에서 진행했습니다. 집 컴퓨터의 메모리와 cpu가 좋다면 로컬에서 작업하시는 것이 좋을 수도 있습니다. (Colab에서 R 사용하기) 라이브러리 및 환경설정 # 파이썬에서 R 사용하는 환경설정 import rpy2 %load_ext rpy2.ipython # 구글 드라이..
나이브 베이즈 분류를 사용해서 미국 고등학생들의 sms 데이터를 분석 해보겠습니다. sms데이터를 분석하기 위해서는 우선 텍스트 데이터를 정리하는 전처리 과정이 필요합니다. 1. 데이터 전처리 기본 데이터 셋팅 sms_raw 4812 747 데이터 마이닝 텍스트를 분석하기 위해서 문장을 Corpus로 만들어 주어야합니다. 말뭉치 또는 코퍼스(영어: corpus, 복수형: corpora)는 자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합이다 from 위키백과. 간단하게 단어 집합이라고 생각하면됩니다. 코퍼스가 만들어지면 메모리에 데이터가 저장됩니다. 따라서 너무 많은 데이터는 메모리 터짐현상을 발생시킬 수 있습니다. 주의 ㅎ VCorpus를 사용해서 코퍼스를 만들기 위해서는 먼저 벡터..

R을 확용한 나이브 베이즈 분류기를 만들어 보겠습니다. 배우는 단계에서 기초적인 내용임을 사전에 알려드립니다. 데이터는 UCI의 공개데이터인 Mushroom를 csv파일로 배포된 것을 사용하였습니다. 데이터를 다운받아 같이 공부해보면 좋을 것 같아요. 아래에 파일을 참조하였습니다. 1. 라이브러리 library(gmodels) library(e1071) 사용한 라이브러리는 위의 두 개입니다. e1071은 나이브 베이즈 분류기를 사용하기 위해서 불러왔습니다. 그 외에도 다양한 머신러닝 알고리즘이 들어있다고 합니다. gmodels는 평가할 때, CrossTable을 사용해서 평가하기 위해서 불러왔습니다. 2. 데이터 확인하기 mushroom

위스콘신대학에서 발행한 암환자 데이터를 바탕으로 종양인지 아닌지를 판단하는 모델을 만들어 보겠습니다. 사용언어 : R 사용모델 : KNN library(gmodels) # Crosstable 보기 위한 라이브러리 library(class) # knn이 class 라이브러리에 들어있음 wbcd

연관분석이란 대용량의 트렌젝션 데이터로부터X이면 Y이다 형식의 연관 관계를 발견하여 분석하는 기법이다. 데이터의 발생 빈도에 따라서 각 데이터 간의 연관관계를 알아보는 방법이다. 장바구니 분석을 예로 기저귀를 샀을 때 맥주를 사는 경우가 많더라 라는 경우를 들 수 있다. 연관규칙의 대표적인 알고리즘으로 1. Apriori algorithm, 2. DHP Algorithm, 3. FP-growth Algorithm 트랜잭션(transaction) 이란? 기업의 상품의 구매 또는 일련의 거래와 같은 사건들을 트랜잭션(transaction) 이라고 한다. 대형마트에 방문하여 물건을 구입하는 손님들중 손님 한명이 산 물품을 트랜잭션 이라고 한다. 대형마트는 데이터베이스를 구축하고 있으며, 수많은 트랜잭션들을 분..

이전 글에서는 기본적인 R 프로그래밍 문법과 패키지에 대해서 알아보았습니다. 2020/02/03 - [분류 전체보기] - R 프로그램 기초 문법, 기본 패키지 설치(ggplot,dplyr,readxl ) R 프로그램 기초 문법, 기본 패키지 설치(ggplot,dplyr,readxl ) R 프로그램 설치 2020/02/03 - [분류 전체보기] - R과 R Studio 설치하는 방법과 기본 환경 설정(한글 깨짐 방지, 기본 디렉토리 설정) R과 R Studio 설치하는 방법과 기본 환경 설정(한글 깨짐 방지, 기본 디렉.. chancoding.tistory.com 이번 글에서는 실제 데이터를 사용해서 R 프로그램의 데이터프레임을 다루는 연습을 진행해보겠습니다. 파일을 다운로드해서 직접 같이 해보실 분들은 ..