안녕하세요 푸디헬스입니다.
오늘은 수치형 변수의 데이터 시각화 방법에 대해 포스팅해보겠습니다. 수치형 데이터는 이산 데이터로 셀 수 있으며, 연속적인 속성을 가지는 데이터입니다
- R Studio를 실행합니다.
- 데이터를 생성
SCORE에 점수 데이터 생성했습니다. sort함수로 수치형 데이터를 오름차순 또는 decreasing 옵션으로 내림차순으로 정리할 수 있습니다.
- 기본 통계자료의 확인
min : 최솟값
max : 최댓값
median : 중앙값
quantile(SCORE, 0.25) : SCORE 자료에서 상위 25%에 위치하는 데이터를 나타내 줍니다.
이 모든 것을 한꺼번에 보여주는 summary 함수입니다.
- 수치형 데이터의 시각화
1. boxplot
boxplot함수는 수치형 데이터의 Min, 1st Qu, Median, Mean, 3rd Qu, Max를 나타내 줍니다.
최소, 상위 25%, 중앙값, 평균, 상위 75%, 최대 수치를 abline을 통해 (plot에 선을 긋는 함수로 h(horizontal : 평행) 옵션은 평행선을 긋는 함수입니다.) boxplot위에 평행선을 그려줍니다.
abline(h = 75)를 실행해보시길 바랍니다.
2. hist(히스토그램)
hist함수는 히스토그램을 그려주는 함수입니다.
seq(50, 100, 10) : 50~100까지 10 간격으로 나누어라는 의미입니다. [seq(sequence)]
breaks는 x축을 나누는 옵션입니다. right = T는 히스토그램의 오른쪽 끝 값을 포함하도록 하는 옵션입니다. 즉 50 이상 60 이하, 60 초과 70 이하 이런 식으로 데이터가 계산됩니다.
지금까지 수치형 변수(변수 1개)를 시각화해보았습니다. 코드는 첨부파일로 올려놓았으니 한 줄씩 실행하면서 결과를 확인해보시면 어렵지 않게 이해하실 수 있을 거라고 생각합니다.
혹시나 궁금한 점이 있으시면 댓글 남겨주시길 바랍니다.
읽어주셔서 감사합니다.
댓글