R언어 기초 Chapter 2 - 범주형변수 정리방법(변수 1개)

안녕하세요~!!

푸디헬스입니다. ^^

오늘은 범주형 변수를 정리하는 방법에 대해 포스팅해보겠습니다. 여기서 범주형 변수는 데이터가 구분이 되어있는 것을 의미합니다. "남", "여", "20대", "30"대, "안경을 쓴 사람", "안경을 쓰지 않은 사람" 정도가 예시가 되겠습니다.

처음 보시는 함수들도 있겠지만, 제가 설명하면서 알려드릴 테니 천천히 따라와 주시길 바랍니다!

일단 RStuio를 실행시킵니다!

이 부분은 GENDER라는 데이터를 직접 만드는 과정입니다. rep(repeat) 함수는 반복 함수입니다.

rep('남', 3) : '남'을 3번 반복

여기서 문자형은 ' '(작은따옴표) 또는 " "(큰 따옴표)로 묶어주셔야 합니다.

이 코드는 a라는 변수에 1 2 3을 넣으라는 코드입니다. 여기서 c() 함수는 벡터를 만드는 함수입니다. 벡터는 한글, 영어, 프랑스어처럼 데이터의 종류 중 하나라고 생각하시면 편합니다.

levels는 범주형 변수(GENDER) 데이터의 수준을 알려주는 함수입니다. GENDER 데이터에는 '남' '여'라는 두 개 범주의 데이터만 있습니다!

보통 범주형 데이터를 분석하기 전에 기본적으로 확인하는 게 있습니다. 데이터의 수준(levels), 데이터의 개수(length), 데이터의 class입니다.

length(길이) : 데이터의 개수를 알려줍니다.

class() : 데이터의 형식을 알려주는 함수입니다. 우리는 처음에 GENDER에 c()로 데이터를 넣었으니깐 벡터(factor)를 반환합니다.

table() 함수는 범주형 변수 데이터(GENDER)의 빈도 표를 만들어주는 함수입니다. 이 코드는 t_GENDER에다가 GENDER의 빈도 표를 넣으라는 코드입니다. 그래서 t_GENDER를 Ctrl + Enterl 하시면 GENDER 빈도 표가 작성됩니다! (지금은 toy data : 작은 데이터, 이지만 big data가 되면 유용한 함수입니다.)