본문 바로가기
R 언어(프로그래밍) - 기초

R언어 기초 Chapter 2 - 범주형변수 정리방법(변수 1개)

by 푸쓰 2019. 7. 19.
반응형

한 범주형변수 정리방법.R
0.00MB

안녕하세요~!!

푸디헬스입니다. ^^

오늘은 범주형 변수를 정리하는 방법에 대해 포스팅해보겠습니다. 여기서 범주형 변수는 데이터가 구분이 되어있는 것을 의미합니다. "남",  "여", "20대", "30"대, "안경을 쓴 사람", "안경을 쓰지 않은 사람" 정도가 예시가 되겠습니다. 

처음 보시는 함수들도 있겠지만, 제가 설명하면서 알려드릴 테니 천천히 따라와 주시길 바랍니다!

 

 

일단 RStuio를 실행시킵니다!

이 부분은 GENDER라는 데이터를 직접 만드는 과정입니다. rep(repeat) 함수는 반복 함수입니다.

rep('남', 3) : '남'을 3번 반복

여기서 문자형은 ' '(작은따옴표) 또는 " "(큰 따옴표)로 묶어주셔야 합니다.

 

벡터 예시!

이 코드는 a라는 변수에 1 2 3을 넣으라는 코드입니다. 여기서 c() 함수는 벡터를 만드는 함수입니다. 벡터는 한글, 영어, 프랑스어처럼 데이터의 종류 중 하나라고 생각하시면 편합니다.

 

levels는 범주형 변수(GENDER) 데이터의 수준을 알려주는 함수입니다. GENDER 데이터에는 '남' '여'라는 두 개 범주의 데이터만 있습니다!

보통 범주형 데이터를 분석하기 전에 기본적으로 확인하는 게 있습니다. 데이터의 수준(levels), 데이터의 개수(length), 데이터의 class입니다.

length(길이) : 데이터의 개수를 알려줍니다.

class() : 데이터의 형식을 알려주는 함수입니다. 우리는 처음에 GENDER에 c()로 데이터를 넣었으니깐 벡터(factor)를 반환합니다.

 

table() 함수는 범주형 변수 데이터(GENDER)의 빈도 표를 만들어주는 함수입니다. 이 코드는 t_GENDER에다가 GENDER의 빈도 표를 넣으라는 코드입니다. 그래서 t_GENDER를 Ctrl + Enterl 하시면 GENDER 빈도 표가 작성됩니다! (지금은 toy data : 작은 데이터, 이지만 big data가 되면 유용한 함수입니다.)

 

 

prop.table() : 괄호 안에는 보통 table(빈도 표)를 넣습니다. 상대 빈도를 바로 계산해주는 함수입니다.

 

마지막으로 barplot()으로 범주형 데이터를 시각적으로 표현해주는 함수입니다.

barplot(빈도 표, 옵션들)

xlab = x축 label(이름)

ylab = y축 label

legend.text = F 랑 비교해보시면 의미를 아실 수 있습니다.

col  = : 색을 넣어주는 옵션입니다.

main   = ' 제목을 넣는 옵션이에요' 

 

여기까지 하시면 한 범주형 변수의 데이터 정리가 끝난 거랍니다! 저 코드는 제가 첨부파일로 올려놓았으니깐

순서대로 Ctrl + Enter 하시면서 실행해보시면 어렵지 않게 이해하실 수 있으실 거라고 생각합니다. 데이터 정리 방법은 제가 순서대로 정리한 거니깐 다른 데이터를 분석하실 때도 이 순서대로 하시면 편하실 겁니다!

이해가지 않는 부분이 있으시면 편하게 댓글 달아주시면 최대한 빨리 답변드리겠습니다.

그럼 오늘의 포스팅을 마치겠습니다.

좋은 하루 보내세요^^

반응형

댓글