R언어 기초 Chapter 18 - 조건부 평균 &조건부 확률&회귀분석

안녕하세요

푸디헬스입니다

오늘은 조건부 평균과 조건부 확률을 R을 통해 구해보도록 하겠습니다.

data.frame 함수로 데이터를 만들어줍니다.

평상시 가장 많이 사용되는 시험 점수 데이터입니다.

그러면 이와 같이 10행 2열의 국어 점수, 수학 점수 데이터가 생성이 됩니다.

여기서 저희는 상위권의 점수

수학 점수가 80점 이상인 데이터를 subset함수를 통해 추출해 보겠습니다.

MATH_GOOD에 SCORES데이터 중에서 수학점수가 80점 이상인 데이터를 넣습니다.

그러면 수학점수가 80점 이상인 점수 데이터만 추출이 됩니다.

여기서 저희는 국어 점수가 90점 이상인 데이터의 조건부 확률을 구해보겠습니다.

MATH_GOOD$국어 점수>=90의 결과는 FALSE FALSE FALSE FALSE TRUE TREU가 나오는데

FALSE는 0이고 TRUE는 1이므로 mean함수를 쓰면 2/6이 되어 0.33333이라는 조건부 확률이 나오게 됩니다.

조건부 평균을 구할 때는 논리 연산만 빼주면 됩니다.

그래서 이 점수의 결과는 수학 점수가 80점 이상일 때 국어점수의 평균입니다.

이와 반대로 수학 점수가 80점 미만일 때 국어가 90점이상일 확률과

수학점수가 80점 미만일 때 국어 점수의 평균을 구하고 싶으면

MATH_BAD = subset(SCORES, 수학 점수 <80)

MATH_BAD

mean(MATH_BAD$국어 점수>=90)과

mean(MATH_BAD$국어 점수)

이렇게 코딩해주시면 됩니다.

이렇게 하면 조건부 평균과 조건부 확류 구하기는 끝이 납니다.

subset함수로 간단하게 구할 수 있죠??

지금부터는 간단한 회귀모형에 대한 코딩을 해보겠습니다.

단순 회귀모형은 simple regression model이라고 부르고 회귀분석의 기초가 되는 모형입니다.

기본적으로 목표가 되는 값을 y라고 했을 때 y에 영향을 끼치는 x(원인) 간의 함수관계를 설명하기 위해서 회귀분석을 합니다.

분석을 하기 전까지는 x와 y사이에 어떠한 관계가 있는지는 모르지만 데이터를 통해 임의의 모델을 선택해 하나의 직선을 만들어 냅니다. 이를 선형 회귀(linear regression)라고 합니다. 선형 회귀모형 이외에 다중 선형 회귀모형 같은 다른 모형도 있지만 가장 간단한 linear regression을 해보겠습니다.