(i)对于一个二值响应y,令表示样本中1的比例(等于yi的样本均值)。令q0,表示结果为y=0的正确预测百分数,而q1表示结果为y=1的正确预测百分数。若p是整体的正确预测百分数,证明p是q0和q1的一个加权平均:
(ii)在一个容量为300的样本中,假设yi=0.70,所以有210个结果为yi=1,90个结果为yi=0。假设yi=0的正确预测百分数为80,而yi=1的正确预测百分数为40。求总体正确预测百分数。
若样本数据 3,2, x ,5 的均值为3,则该样本的方差是()
A.2
B.1.5
C.2.5
D.6
对(许多美国工人可用的)401(k)养老金计划的出现是否提高了净储蓄,吸引了大量研究兴趣。数据集401KSUBS.RAW包含了有关净金融资产(nettfa)、家庭收入(ic)、是否有资格参与401(k)计划的二值变量(e401k)和其他几个变量的信息。
(i)样本中有资格参与一个401(k)计划的家庭比例是多少?
(ii)估计一个用收入、年龄和性别解释401(k)资格的线性概率模型。包括收入和年龄的二次项,并以通常形式报告结论。
(iii)你认为401(k)资格独立于收入和年龄吗?性别呢?请解释。
(iv)求第(ii)部分中估计的线性概率模型的拟合值。有小于0或大于1的拟合值吗?
(v)利用第(iv)部分中的拟合值e401k1,定义e401k1在e401k≥0.5时取值1,并在2e401k<0.5时取值0。在9275个家庭中,预计有多少家庭有资格参与401(k)计划?
(vi)对于没有资格参加401(k)的5638个家庭,利用预测值e401k1,预测其中有多大比例没有401(k)?对于有资格参加401(k)的3637个家庭,其中有多大比例的家庭有401(k)?(如果你的计量经济软件具有“制表”命令更好。)
(vii)总正确预测比约为64.9%。给定第(vi)部分的答案,你认为这是模型好坏的一个完备描述吗?
(viii)在线性概率模型中增加一个解释变量pira。其他条件不变,若一个家庭有某人拥有个人退休金账户,一个家庭有资格参与401(k)计划的估计概率会提高多少?在10%的显著性水平上,它统计显著异于0吗?
一个去除了质量变化的所有特殊原因的生产过程被称为是稳定的或者是在统计控制中的。剩余的变化只是简单的随机变化。假如随机变化太大,则管理部门不能接受,但只要消除变化的共同原因,便可减少变化(Deming,1982,1986,DeVor,Chang,和Sutherland,1992)。
通常的做法是将产品质量的特征绘制到控制图上,然后观察这些数值随时间如何变动。例如,为了控制肥皂中碱的数量,可以每小时从生产线中随机地抽选n=5块试验肥皂作为样本,并测量其碱的数量,不同时间的样本含碱量的均值描绘在下图中。假设这个过程是在统计控制中的,则文的分布将具有过程的均值μ,标准差具有过程的标准差除以样本容量的平方根下面的控制图中水平线表示过程均值,两条线称为控制极限度,位于μ的上下的位置。假如落在界限的外面,则有充分的理由说明目前存在变化的特殊原因,这个过程一定是失控的。
当生产过程是在统计控制中时,肥皂试验样本中碱的百分比将服从μ=2%和σ=1%的近似的正态分布。
(1)假设n=4,则上下控制极限应距离μ多么远?
(2)假如这个过程是在控制中,则落在控制极限之外的概率是多少?
(3)假设抽取样本之前,过程均值移动到μ=3%,则由样本得出这个过程失控的(正确的)结论的概率是多少?
设(X1,X2,...,X6)是取自正态分布N(10,32)总体X的一个样本。
(1)写出样本均值的概率密度函数;
(2)计算概率P{>11}。