단순 회귀모형 실습

단순 회귀분석 예제

1
2
data(cars)
head(cars)
1
2
3
4
5
6
7
##   speed dist
## 1 4 2
## 2 4 10
## 3 7 4
## 4 7 22
## 5 8 16
## 6 9 10

독립변수는 speed이고, 종속 변수는 dist라고 본다.

식은 dist(Y)=X0+X1*(speed)+e

이 데이터를 회귀분석한다.

1
2
m1<-lm(dist~speed,cars)
summary(m1)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
## 
## Call:
## lm(formula = dist ~ speed, data = cars)
##
## Residuals:
## Min 1Q Median 3Q Max
## -29.069 -9.525 -2.272 9.215 43.201
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -17.5791 6.7584 -2.601 0.0123 *
## speed 3.9324 0.4155 9.464 1.49e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 15.38 on 48 degrees of freedom
## Multiple R-squared: 0.6511, Adjusted R-squared: 0.6438
## F-statistic: 89.57 on 1 and 48 DF, p-value: 1.49e-12

여기서 Intercept는 y절편을 의미한다. x0 = -17.579

speed는 회귀선의 기울기를 의미한다. x1 = 3.932

그래서 식은 dist(Y)=-17.579 + (3.932)*(speed)+e 로 구해질 수 있다.
유의수준 5%하에서 F-통계량의 p-값이 0.05보다 작기때문에 추정된 회귀식은 통계적으로
유의하다고 볼 수 있다.

이렇게 추정한 회귀모형을 그래프로 소개하고자 한다.

1
2
3
4
library(ggplot2)
ggplot(m1,aes(x=speed,y=dist))+
geom_point(shape=1)+#중앙이 빈 동그라미 만들기 shape=1
stat_smooth(method='lm',se=F) #단순선형회귀분석옵션method='lm',se=F 표준오차를 표현하지않는다는 것.
1
## `geom_smooth()` using formula 'y ~ x'

이 회귀선이 타당한지 보기위해 회귀식과 모형간의 잔차를 따로 구할 수 있다.

그리고, 이 잔차가 정규 분포를 따르는지 확인한다.

1
2
res_m1<-residuals(m1)
shapiro.test(res_m1)
1
2
3
4
5
## 
## Shapiro-Wilk normality test
##
## data: res_m1
## W = 0.94509, p-value = 0.02152

귀무가설: 정규분포를 따르지 않는다.

대립가설: 정규분포를 따른다.

여기서 p-value가 0.02152 기 때문에, 귀무가설을 기각할 수 있고 따라서 이 회귀선의 잔차는 정규분포를 따른다.

이 모형은 회귀가정들을 만족할까?

1
2
par(mfrow=c(2,2))
plot(m1)

왼쪽 위의 그림을 보면 그래프의 기울기가 거의 0에 가까우므로 선형성 가정을 만족한다.

오른쪽 위의 그림을 보면 23,35,40 을 제외한 값들은 *잔차 정규성(정상성)*이 확인된다.

왼쪽 아래의 그림을 보면 그래프의 기울기가 거의 0에 가까우므로 등분산성 가정을 만족한다.

오른쪽 밑의 그림에서는 23번과 49번의 이상치가 확인된다.

독립성 가정을 만족하는지 확인하기 위해 durbinWatson 검정을 시행한다.

1
2
#install.packages("durbinWatsonTest")
library(car)
1
## Loading required package: carData
1
durbinWatsonTest(m1)
1
2
3
##  lag Autocorrelation D-W Statistic p-value
## 1 0.1604322 1.676225 0.214
## Alternative hypothesis: rho != 0

귀무가설: 잔차들 사이에 자기상관관계가 없다.
대립가설: 잔차가 자기상관관계가 있다.

여기서 p-value가 매우 크므로, 귀무가설을 채택하여 잔차들 사이에 상관관계가 없다는 뜻이다. 그러므로 독립성을 만족한다.

모든 가설을 만족하므로 이 회귀분석은 타당하다고 할 수 있다.

Author

이현정

Posted on

2021-03-31

Updated on

2021-03-31

Licensed under

You need to set install_url to use ShareThis. Please set it in _config.yml.
You forgot to set the business or currency_code for Paypal. Please set it in _config.yml.

Comments

You forgot to set the shortname for Disqus. Please set it in _config.yml.
You need to set client_id and slot_id to show this AD unit. Please set it in _config.yml.