안녕하세요
푸디헬스입니다
오늘은 대수의 법칙(Law of Large Numbers)의 코드를 짜 보고 확인해보겠습니다.
대수의 법칙은 어떤 의미를 가질까요?
통계적으로 "모집단에서 random 하게 뽑은 표본의 개수가 많을수록 표본의 평균이 전체 모집단의 평균으로 수렴한다"는 의미를 가집니다.
대수의 법칙은 그럼 항상 성립할까요?
모평균의 절댓값이 무한대보다 작을 때 성립하며
n(표본의 개수)가 많을수록 표본 평균의 불확실성이 줄어든다는 의미를 가집니다.
그럼 이 대수의 법칙을 boxplot을 이용해 눈으로 직접 확인해 보도록 하겠습니다.
먼저 코드를 설명해드리겠습니다.
mat : 매트릭스, 100행 3열 0만 있음
for문 : 반복문
gamma분포
모평균 = shape*scale : 2*6 = 12
모분산 = shape*(scale^2) : 2*36 = 72
rgamma : gamma분포에서 random 하게 데이터 뽑아주세요
n은 10 100 10000 값을 차례로 가집니다
1. n = 10일 때
j : 1~100 값을 차례로 가집니다.
if(n==10) n이 10이면
mat [1,1] = mean(rgamma(n, shape = 2, scale = 6) 값을 넣어라.
mat [2,1] = mean(rgamma(n, shape = 2, scale = 6) 값을 넣어라.
.
.
.
mat [100,1] = mean(rgamma(n, shape = 2, scale = 6) 값을 넣어라.
mat매트릭스의 1열에는 n = 10일 때 평균이 각행에 들어가 있습니다.
반복문이니깐 n = 100, 10000일 때도 똑같은 패턴으로 돌아가게 됩니다.
그래서 그 결과는
boxplot은 기술 통계학에서 수치적 자료를 표현하는 그래프입니다.
일명 다섯 수치를 요약해주어서 다섯 수치 요약(Five Number Summary)라고 부릅니다.
boxplot은 박스와 박스 바깥의 선(whisker)으로 이루어져 있습니다.
그 다섯 수치 요약은
최솟값, 제1 사분위(Q1 : 25% 위치), 제2 사분위(Q2 : 50% 위치로 중앙값([median] 의미), 제3 사분위(Q3 : 75% 위치)
최댓값 이렇게 5 숫자를 요약해 줍니다. 최솟값과 최댓값을 넘어가는 위치에 있는 값은 이상치(Outlier)라고 부릅니다.
사분위 범위수(IQR : Inter Quartile Range = Q3 - Q1)
whisker : 상자 좌우 or 상하로 뻗은 선
박스 내부 가로선 : 중앙값
lower whisker : 최솟값, 중앙값 - 1.5 * IQR보다 큰 데이터 중 가장 작은 값
upper whisker : 최댓값, 중앙값 + 1.5 * IQR보다 작은 데이터 중 가장 큰 값
점 : 이상치(OUTLIER)는 특이점을 의미
그래서 결과를 보면 boxplot의 IQR(네모난 박스)이 점점 작아지는 것을 볼 수 있습니다.
즉 n(표본의 개수)이 클수록 표본 평균의 불확실성이 줄어든다는 것을 확인할 수 있습니다.
마지막으로 summary는 Min(최솟값), Q1, Median(중앙값), Mean(평균), Q3, Max(최댓값)를 나타내 줍니다
그래서 밑의 코드를 실행시키면 mat[,1] = 1열의 데이터들의 6개의 값들을 평행으로 그어줍니다
그럼 오늘은 대수의 법칙을 코딩으로 확인해 보았습니다.
대수의 법칙은 수학적으로나 통계적으로나 큰 의미를 가지니 꼭 한번 코딩을 돌려보시길 바랍니다.
그럼 오늘의 포스팅은 이만 마치겠습니다.
궁금한 거 있으시면 댓글 달아주시고
(회기역 근처에서 R 기초 과외하고 있으니 관심 있으신 분은 jwj4519@naver.com 또는 jwj4519(카톡 ID)로
연락 주세요^^)
다음에 뵙겠습니다!!
댓글