단순 회귀모형 실습
단순 회귀분석 예제
1 | data(cars) |
1 | ## speed dist |
독립변수는 speed이고, 종속 변수는 dist라고 본다.
식은 dist(Y)=X0+X1*(speed)+e
이 데이터를 회귀분석한다.
1 | m1<-lm(dist~speed,cars) |
1 | ## |
여기서 Intercept는 y절편을 의미한다. x0 = -17.579
speed는 회귀선의 기울기를 의미한다. x1 = 3.932
그래서 식은 dist(Y)=-17.579 + (3.932)*(speed)+e 로 구해질 수 있다.
유의수준 5%하에서 F-통계량의 p-값이 0.05보다 작기때문에 추정된 회귀식은 통계적으로
유의하다고 볼 수 있다.
이렇게 추정한 회귀모형을 그래프로 소개하고자 한다.
1 | library(ggplot2) |
1 | ## `geom_smooth()` using formula 'y ~ x' |
이 회귀선이 타당한지 보기위해 회귀식과 모형간의 잔차를 따로 구할 수 있다.
그리고, 이 잔차가 정규 분포를 따르는지 확인한다.
1 | res_m1<-residuals(m1) |
1 | ## |
귀무가설: 정규분포를 따르지 않는다.
대립가설: 정규분포를 따른다.
여기서 p-value가 0.02152 기 때문에, 귀무가설을 기각할 수 있고 따라서 이 회귀선의 잔차는 정규분포를 따른다.
이 모형은 회귀가정들을 만족할까?
1 | par(mfrow=c(2,2)) |
왼쪽 위의 그림을 보면 그래프의 기울기가 거의 0에 가까우므로 선형성 가정을 만족한다.
오른쪽 위의 그림을 보면 23,35,40 을 제외한 값들은 *잔차 정규성(정상성)*이 확인된다.
왼쪽 아래의 그림을 보면 그래프의 기울기가 거의 0에 가까우므로 등분산성 가정을 만족한다.
오른쪽 밑의 그림에서는 23번과 49번의 이상치가 확인된다.
독립성 가정을 만족하는지 확인하기 위해 durbinWatson 검정을 시행한다.
1 | #install.packages("durbinWatsonTest") |
1 | ## Loading required package: carData |
1 | durbinWatsonTest(m1) |
1 | ## lag Autocorrelation D-W Statistic p-value |
귀무가설: 잔차들 사이에 자기상관관계가 없다.
대립가설: 잔차가 자기상관관계가 있다.
여기서 p-value가 매우 크므로, 귀무가설을 채택하여 잔차들 사이에 상관관계가 없다는 뜻이다. 그러므로 독립성을 만족한다.
모든 가설을 만족하므로 이 회귀분석은 타당하다고 할 수 있다.
install_url
to use ShareThis. Please set it in _config.yml
.