本题使用GPA2.RAW中的数据。
(i)考虑方程
其中,colgpa表示累积的大学GPA,hsize表示高中毕业年级以百人计的规模,hsperc表示在毕业年级中学术排名的百分位,sat表示SAT综合分数,female是一个二值变量,而athlete也是一个运动员取值1的二值变量。你对这个方程中的系数有何预期?哪些你没有把握?
(ii)估计第(i)部分中的方程,并以通常的形式报告结果。估计运动员和非运动员之间GPA的差异是多少?它是统计显著的吗?
(ii)从模型中去掉sat并重新估计这个方程。现在,作为运动员的估计影响是多大?讨论为什么这个估计值不同于第(ii)部分的结论。
(iv)在第(i)部分的模型中,容许作为运动员的影响会因性别不同而不同。检验如下原假设:在其他条件不变的情况下,女生是否是运动员没有差别。
(v)sat对colgpa的影响会因性别不同而不同吗?讲出你的根据。
(i)对于一个二值响应y,令表示样本中1的比例(等于yi的样本均值)。令q0,表示结果为y=0的正确预测百分数,而q1表示结果为y=1的正确预测百分数。若p是整体的正确预测百分数,证明p是q0和q1的一个加权平均:
(ii)在一个容量为300的样本中,假设yi=0.70,所以有210个结果为yi=1,90个结果为yi=0。假设yi=0的正确预测百分数为80,而yi=1的正确预测百分数为40。求总体正确预测百分数。