안녕하세요~!!
푸디헬스입니다. ^^
오늘은 범주형 변수를 정리하는 방법에 대해 포스팅해보겠습니다. 여기서 범주형 변수는 데이터가 구분이 되어있는 것을 의미합니다. "남", "여", "20대", "30"대, "안경을 쓴 사람", "안경을 쓰지 않은 사람" 정도가 예시가 되겠습니다.
처음 보시는 함수들도 있겠지만, 제가 설명하면서 알려드릴 테니 천천히 따라와 주시길 바랍니다!
일단 RStuio를 실행시킵니다!
이 부분은 GENDER라는 데이터를 직접 만드는 과정입니다. rep(repeat) 함수는 반복 함수입니다.
rep('남', 3) : '남'을 3번 반복
여기서 문자형은 ' '(작은따옴표) 또는 " "(큰 따옴표)로 묶어주셔야 합니다.
이 코드는 a라는 변수에 1 2 3을 넣으라는 코드입니다. 여기서 c() 함수는 벡터를 만드는 함수입니다. 벡터는 한글, 영어, 프랑스어처럼 데이터의 종류 중 하나라고 생각하시면 편합니다.
levels는 범주형 변수(GENDER) 데이터의 수준을 알려주는 함수입니다. GENDER 데이터에는 '남' '여'라는 두 개 범주의 데이터만 있습니다!
보통 범주형 데이터를 분석하기 전에 기본적으로 확인하는 게 있습니다. 데이터의 수준(levels), 데이터의 개수(length), 데이터의 class입니다.
length(길이) : 데이터의 개수를 알려줍니다.
class() : 데이터의 형식을 알려주는 함수입니다. 우리는 처음에 GENDER에 c()로 데이터를 넣었으니깐 벡터(factor)를 반환합니다.
table() 함수는 범주형 변수 데이터(GENDER)의 빈도 표를 만들어주는 함수입니다. 이 코드는 t_GENDER에다가 GENDER의 빈도 표를 넣으라는 코드입니다. 그래서 t_GENDER를 Ctrl + Enterl 하시면 GENDER 빈도 표가 작성됩니다! (지금은 toy data : 작은 데이터, 이지만 big data가 되면 유용한 함수입니다.)
prop.table() : 괄호 안에는 보통 table(빈도 표)를 넣습니다. 상대 빈도를 바로 계산해주는 함수입니다.
마지막으로 barplot()으로 범주형 데이터를 시각적으로 표현해주는 함수입니다.
barplot(빈도 표, 옵션들)
xlab = x축 label(이름)
ylab = y축 label
legend.text = F 랑 비교해보시면 의미를 아실 수 있습니다.
col = : 색을 넣어주는 옵션입니다.
main = ' 제목을 넣는 옵션이에요'
여기까지 하시면 한 범주형 변수의 데이터 정리가 끝난 거랍니다! 저 코드는 제가 첨부파일로 올려놓았으니깐
순서대로 Ctrl + Enter 하시면서 실행해보시면 어렵지 않게 이해하실 수 있으실 거라고 생각합니다. 데이터 정리 방법은 제가 순서대로 정리한 거니깐 다른 데이터를 분석하실 때도 이 순서대로 하시면 편하실 겁니다!
이해가지 않는 부분이 있으시면 편하게 댓글 달아주시면 최대한 빨리 답변드리겠습니다.
그럼 오늘의 포스팅을 마치겠습니다.
좋은 하루 보내세요^^
댓글