如果需要训练的特征维度成千上万,在高维情形下出现的数据样本稀疏、距离计算困难。我们通过什么方法可以缓解这个问题()。
A.K均值算法
B.支持向量机
C.降维
D.以上答案都不正确
A.K均值算法
B.支持向量机
C.降维
D.以上答案都不正确
A.主成分分析
B.因子分析
C.独立主成分分析
D.SVM
A.并不是一定要进行特征降维,可以自行分析生成结果,判断是否需要
B.必须要进行,否则会对分类结果造成巨大影响
C.没必要进行,特征的维度对分类结果没有影响
D.其余三个说法都不对
A.可以处理高维度的属性,并且不用做特征选择
B.随机森林的预测能力不受多重共线性影响
C.也擅长处理小数据集和低维数据集的分类问题
D.能应对正负样本不平衡问题
A.对训练集随机采样,在随机采样的数据上建立模型
B.尝试使用在线机器学习算法
C.使用PCA算法减少特征维度
A.使用前向特征选择方法
B.使用后向特征排除方法
C.我们先把所有特征都使用,去训练一个模型,得到测试集上的表现.然后我们去掉一个特征,再去训练,用交叉验证看看测试集上的表现.如果表现比原来还要好,我们可以去除这个特征
D.查看相关性表,去除相关性最高的一些特征
A.数据维度包括一二维、多维和高维数据
B.所有数据都能用维度方式表示
C.图像由于存在长宽,所以图像数据是二维数据
D.一维数据可能存在顺序,也可以没有顺序
A.采用列表表示一维数据,不同数据类型的元素是可以的
B.JSON格式可以表示比二维数据还复杂的高维数据
C.二维数据可以看成是一维数据的组合形式
D.字典不可以表示二维以上的高维数据
A.数据组织存在维度,字典类型用于表示一维和二维数据
B.高维数据有键值对类型的数据构成,采用对象方式组织
C.二维数据采用表格方式组织,对应于数学中的矩阵
D.一维数据采用线性方式组织,对应于数学中的数组和集合等概念