차밍이

[R] 프로그램 기초 문법, 기본 패키지 설치(ggplot,dplyr,readxl ) 본문

R

[R] 프로그램 기초 문법, 기본 패키지 설치(ggplot,dplyr,readxl )

2020. 2. 3. 18:44
반응형

 

R 프로그램 설치

2020/02/03 - [분류 전체보기] - R과 R Studio 설치하는 방법과 기본 환경 설정(한글 깨짐 방지, 기본 디렉토리 설정)

 

R과 R Studio 설치하는 방법과 기본 환경 설정(한글 깨짐 방지, 기본 디렉토리 설정)

1. R 이란 ? R은 통계 컴퓨팅과 그래픽을 위한 무료 소프트웨어 환경입니다. 매우 다양한 유닉스 플랫폼인 윈도우와 맥OS에서 컴파일되고 실행됩지다. 다른 언어들에 비해 조금 유연한 문법으로 사용이 편리합니..

chancoding.tistory.com

 

R 프로그래밍 기초

변수 넣어주기

Script에서 기본 작동방법 Ctrl + Enter 해당 줄 실행

 

실행

a <- 1     # 숫자 변수 선언
s1 <-'a'   # 문자 변수 선언
s2 <-'text'
s3 <-'hi'
s4 <- c(s1,s2,s3) # 문자로 구성된 배열 선언
s5 <- paste(s4, collapse=",") 
# paste 함수 : 구분자 collapse를 사용해 문자열내의 요소들을 합쳐준다.
a
s4
s5

결과

1
"a" "text" "hi"  
"a,text,hi" # 콤마를 기준으로 합쳐진 것을 확인할 수 있다.

배열로 선언하기

실행

# c() 함수를 사용해서 값을 배열로 넣어준다.
v1 <- c(1,2,5,8,9)
# seq 함수를 사용해서 1에서 5까지의 연속된 값을 넣을 수 있다.
v2 <-seq(1,5)
v1
v2
v2+1 # 배열에 값을 더하면 전체 배열에 값이 더해진다.

결과

1 2 5 8 9
1 2 3 4 5
2 3 4 5 6

기본 패키지 설치하기

R을 사용하기 위해 필수적인 기본 패키지를 소개하겠습니다.

ggplot2를 사용하기위해 R을 사용한다고 할 수 있을만큼 매우 유용한 패키지입니다. R을 사용해서 그려내는 모든 그래프들은 ggplot2를 사용한다고 생각하시면 됩니다.

readxl엑셀 파일을 읽고 쓰기 위한 패키지입니다. 데이터를 읽어오기위해 필수적인 패키지입니다.

dplyr데이터 분석에있어 필수적인 패키지입니다. 데이터처리의 최강 패키지입니다. Python으로 보면 DataFrame을 사용하기위해 pandas를 사용하는 것과 유사하다고 생각합니다. DataFrame과 굉장히 유사해보입니다.

아래의 명령어를 사용해서 패키지를 설치해주도록 하겠습니다. 패키지를 설치하는 것은 처음 1회만 실행하면 됩니다.

install.packages('ggplot2') 
# 그래프를 그리기 위한 ggplot 패키지
install.packages('readxl') 
# 엑셀을 읽고 쓰기 위한 패키지
install.packages('dplyr') 
# 데이터프레임 형태로 작업하기위한 패키지

설치한 패키지는 바로 사용할 수 있는 것이 아니고 메모리에 올려주어야 사용할 수 있습니다. library(패키지명)으로 패키지를 메모리에 올려주도록 합니다.

library(ggplot2)
library(readxl)
library(dplyr)

실행

x <- c("a","a","b","c")
x

결과

 

실행

mpg
qplot(data=mpg, x=hwy)
qplot(data=mpg, x=drv, y=hwy, geom='boxplot', color=drv)
# x축과 y축에 넣고싶은 행 선택
# geom을 사용해서 다양한 plot을 선택 가능
# color 설정 가능

결과

mpg 데이터 내용 및 형태
qplot 결과
bar plot 결과

R프로그램 내에 기본적으로 있는 mpg데이터를 사용해서 plot을 사용해볼 수 있습니다.

 


데이터프레임 만들기

 

DataFrame 형태로 데이터를 만들어 보겠습니다.

 

실행

eng <- c(90,80,60,70)
math <- c(50,10,20,90)
class <-c(1,1,2,2)
df_mid <- data.frame(eng, math, class)
df_mid

결과

  eng math class
1  90   50     1
2  80   10     1
3  60   20     2
4  70   90     2

실행

# 데이터의 structure를 볼 수 있는 함수
str(df_mid)

결과

# 4개의 objects와 3개의 변수로 구성됨
1'data.frame':    4 obs. of  3 variables:
 $ eng  : num  90 80 60 70
 $ math : num  50 10 20 90
 $ class: num  1 1 2 2

실행

# $ 달러 기호를 사용해서 데이터프레임의 데이터 열에 접근 가능
df_mid$eng

# 해당 열의 평균 구하기
mean(df_mid$eng)

결과

90 80 60 70
75

 

지금까지 기초적인 R 프로그램 문법을 알아보았습니다.

다음에는 실제 데이터를 사용해서 배운 문법들을 실습해보겠습니다.

반응형

관련된 글 보기

Comments