R语言关于回归系数的解释

除非我们打算提出因果主张，否则我们应该像描述虚拟变量那样解释连续变量的回归系数。

一条有用建议是，以预测的方式解释回归系数。要了解它们的含义，让我们考虑一个示例。

可下载资源

预测学生表现

hsb <- read.csv("datasets/hsb_comb_full.csv")
names(hsb)
[1] "schoolid" "minority" "female"   "ses"      "mathach"  "size"     "sector"   
[8] "pracad"   "disclim"  "himinty"  "MEANSES"  "N_BREAK"  "sesdev"   "myschool"

# Let's go with the first school, and the first 5 student-level variables
hsb <- hsb[hsb$schoolid == hsb$schoolid[1], 1:5]
summary(hsb)
schoolid       minority           female            ses             mathach      
Min.   :1224   Min.   :0.00000   Min.   :0.0000   Min.   :-1.6580   Min.   :-2.832  
1st Qu.:1224   1st Qu.:0.00000   1st Qu.:0.0000   1st Qu.:-0.8830   1st Qu.: 3.450  
Median :1224   Median :0.00000   Median :1.0000   Median :-0.4680   Median : 8.296  
Mean   :1224   Mean   :0.08511   Mean   :0.5957   Mean   :-0.4344   Mean   : 9.715  
3rd Qu.:1224   3rd Qu.:0.00000   3rd Qu.:1.0000   3rd Qu.:-0.0330   3rd Qu.:16.370  
Max.   :1224   Max.   :1.00000   Max.   :1.0000   Max.   : 0.9720   Max.   :23.584  

# Mathach, ses and female seem to have some variability
# Let's predict math achievement using female (dummy), ses (continuous)
lm(mathach ~ female + ses, hsb)

Call:
lm(formula = mathach ~ female + ses, data = hsb)

Coefficients:
(Intercept)       female          ses  
     12.092       -2.062        2.643

现在，解释其系数的典型方法female是：