下面哪个/些超参数的增加可能会造成随机森林数据过拟合?
查看答案
两个变量的Pearson相关性系数为零,但这两个变量的值同样可以相关。这句描述是正确还是错误?
A. 正确
B. 错误
目标变量在训练集上的8个实际值[0,0,0,1,1,1,1,1],目标变量的熵是多少?
A. -(5/8log(5/8)+3/8log(3/8))
B. 5/8log(5/8)+3/8log(3/8)
C. 3/8log(5/8)+5/8log(3/8)
D. 5/8log(3/8)–3/8log(5/8)
以下说法中错误的是()
A. SVM对噪声(如来自其他分部的噪声样本)具备鲁棒性
B. 在adaboost算法中,所有被分错样本的权重更新比例不相同
C. boosting和bagging都是组合多个分类器投票的方法,二者都是根据单个分类器的正确率确定其权重
D. 给定n个数据点,如果其中一半用于训练,一半用户测试,则训练误差和测试误差之间的差别会随着n的增加而减少的
假设你使用log-loss函数作为评估标准。下面这些选项,哪些是对作为评估标准的log-loss的正确解释。
A. 如果一个分类器对不正确的分类很自信,log-loss会严重的批评它
B. 对一个特别的观察而言,分类器为正确的类别分配非常小的概率,然后对log-loss的相应分布会非常大
C. log-loss越低,模型越好
D. 以上都是