본문 바로가기
R 언어(프로그래밍) - 기초

R언어 기초 Chapter 16 - 대수의 법칙(Law of Large Numbers)

by 푸쓰 2019. 8. 8.
반응형

Chapter 16_대수의법칙(Law of Large Numbers).R
0.00MB

안녕하세요

푸디헬스입니다

오늘은 대수의 법칙(Law of Large Numbers)의 코드를 짜 보고 확인해보겠습니다.

대수의 법칙은 어떤 의미를 가질까요?

통계적으로 "모집단에서 random 하게 뽑은 표본의 개수가 많을수록 표본의 평균이 전체 모집단의 평균으로 수렴한다"는 의미를 가집니다.

대수의 법칙은 그럼 항상 성립할까요?

모평균의 절댓값이 무한대보다 작을 때 성립하며 
n(표본의 개수)가 많을수록 표본 평균의 불확실성이 줄어든다는 의미를 가집니다.

그럼 이 대수의 법칙을 boxplot을 이용해 눈으로 직접 확인해 보도록 하겠습니다.

 

먼저 코드를 설명해드리겠습니다.

mat : 매트릭스, 100행 3열 0만 있음

for문 : 반복문

gamma분포 

모평균 = shape*scale : 2*6 = 12

모분산 = shape*(scale^2) : 2*36 = 72

rgamma : gamma분포에서 random 하게 데이터 뽑아주세요

 

n은 10 100 10000 값을 차례로 가집니다

 

1. n = 10일 때

 j : 1~100 값을 차례로 가집니다.

if(n==10) n이 10이면

mat [1,1] = mean(rgamma(n, shape = 2, scale = 6) 값을 넣어라.

mat [2,1] = mean(rgamma(n, shape = 2, scale = 6) 값을 넣어라. 

.

.

.

mat [100,1] =  mean(rgamma(n, shape = 2, scale = 6) 값을 넣어라.

mat매트릭스의 1열에는 n = 10일 때  평균이 각행에 들어가 있습니다.

 

반복문이니깐 n = 100, 10000일 때도 똑같은 패턴으로 돌아가게 됩니다.

 

그래서 그 결과는

boxplot은 기술 통계학에서 수치적 자료를 표현하는 그래프입니다.

일명 다섯 수치를 요약해주어서 다섯 수치 요약(Five Number Summary)라고 부릅니다.

boxplot은 박스와 박스 바깥의 선(whisker)으로 이루어져 있습니다.

그 다섯 수치 요약은

최솟값, 제1 사분위(Q1 : 25% 위치), 제2 사분위(Q2 : 50% 위치로 중앙값([median] 의미), 제3 사분위(Q3 : 75% 위치)

최댓값 이렇게 5 숫자를 요약해 줍니다. 최솟값과 최댓값을 넘어가는 위치에 있는 값은 이상치(Outlier)라고 부릅니다.

사분위 범위수(IQR : Inter Quartile Range = Q3 - Q1)

whisker : 상자 좌우 or 상하로 뻗은 선

박스 내부 가로선 : 중앙값

lower whisker : 최솟값, 중앙값 - 1.5 * IQR보다 큰 데이터 중 가장 작은 값

upper whisker : 최댓값, 중앙값 + 1.5 * IQR보다 작은 데이터 중 가장 큰 값

점 : 이상치(OUTLIER)는 특이점을 의미

 

그래서 결과를 보면 boxplot의 IQR(네모난 박스)이 점점 작아지는 것을 볼 수 있습니다.

즉 n(표본의 개수)이 클수록 표본 평균의 불확실성이 줄어든다는 것을 확인할 수 있습니다.

 

마지막으로 summary는 Min(최솟값), Q1, Median(중앙값), Mean(평균), Q3, Max(최댓값)를 나타내 줍니다

그래서 밑의 코드를 실행시키면 mat[,1] = 1열의 데이터들의 6개의 값들을 평행으로 그어줍니다

 

그럼 오늘은 대수의 법칙을 코딩으로 확인해 보았습니다.

대수의 법칙은 수학적으로나 통계적으로나 큰 의미를 가지니 꼭 한번 코딩을 돌려보시길 바랍니다.

그럼 오늘의 포스팅은 이만 마치겠습니다.

 

궁금한 거 있으시면 댓글 달아주시고
(회기역 근처에서 R 기초 과외하고 있으니 관심 있으신 분은 jwj4519@naver.com 또는 jwj4519(카톡 ID)로
연락 주세요^^)
다음에 뵙겠습니다!!

반응형

댓글