假如我们使用Lasso回归来拟合数据集,该数据集输入特征有100个(X1,X2,...,X100)。现在,我们把其中一个特征值扩大10倍(例如是特征X1),然后用相同的正则化参数对Lasso回归进行修正。那么,下列说法正确的是()。
A.特征X1很可能被排除在模型之外
B.特征X1很可能还包含在模型之中
C.无法确定特征X1是否被舍
D.以上答案都不正确
A.特征X1很可能被排除在模型之外
B.特征X1很可能还包含在模型之中
C.无法确定特征X1是否被舍
D.以上答案都不正确
利用数据集GPA1.RAW。
(i)利用OLS估计一个将colGPA与hsGPA,ACT,skipped和PC相联系的模型。求OLS残差。
(ii)计算异方差性的怀特检验特殊情形。在对colGPA,和colGPA,的回归中,求拟合值。
(iii)验证第(ii)部分得到的拟合值都严格为正。然后利用权数1/h求加权最小二乘估计值。根据对应的OLS估计值,将逃课和拥有计算机之影响的加权最小二乘估计值与对应OLS估计值相比较。它们的统计显著性如何?
(iv)在第(iii)部分的WLS估计中,求异方差-稳健的标准误。换言之,容许第(ii)部分中所估计的方差函数可能误设(参见问题8.4)。标准误与第(iii)部分相比有很大变化吗?
A.级别划分较多的属性不会影响模型效果
B.在某些噪音较大的分类或回归问题上不会过拟合
C.每次学习使用不同训练集,一定程度避免过拟合
D.能够处理高纬度的数据,并且不做特征选择
A.剔除所有的共线性变量
B.剔除共线性变量中的一个
C.通过计算方差膨胀因子(VarianceInflationFactor,VIF)来检查共线性程度,并采取相应措施
D.删除相关变量可能会有信息损失,我们可以不删除相关变量,而使用一些正则化方法来解决多重共线性问题,例如Ridge或Lasso回归
A.对训练集随机采样,在随机采样的数据上建立模型
B.尝试使用在线机器学习算法
C.使用PCA算法减少特征维度
A.使用前向特征选择方法
B.使用后向特征排除方法
C.我们先把所有特征都使用,去训练一个模型,得到测试集上的表现.然后我们去掉一个特征,再去训练,用交叉验证看看测试集上的表现.如果表现比原来还要好,我们可以去除这个特征
D.查看相关性表,去除相关性最高的一些特征
利用数据集401KSUBS.RAW。
(i)利用OLS估计e401k的一个线性概率模型,解释变量为inc,inc²,age,age²和male。求通常的OLS标准误和异方差-稳健的标准误。它们有重要差别吗?
(iii)对第(i)部分估计的模型求怀特检验,并分析系数估计值是否大致对应于第(ii)部分中描述的理论值。
(iv)在验证了第(i)部分的拟合值都介于0和1之间后,求这个线性概率模型的加权最小二乘估计值。它们与OLS估计值有重大差别吗?
A.除去神经网络中的最后一层,冻结所有层然后重新训练
B.对神经网络中的最后几层进行微调,同时将最后一层(分类层)更改为回归层
C.使用新的数据集重新训练模型
D.所有答案均不对