20Newsgroups数据集是机器学习研究中常用的标准数据集,它使用20个Usenet新闻单位上几个月发布的18828个消息,共18828个文件,如果对该数据集使用mahout进行文本分类,分类后得到的混淆矩阵中,部分结果如下图所示:图中第一行是类别名称,第二行是属于a类的分类情况(a类文本原有168篇),第三行是属于b类的分类情况(b类文本原有180篇),第四行是c类的分类情况(c类文本原有189篇),根据各行的分类情况,以下分析正确的是()
A. 分类算法对a类文本分类情况较好
B. 分类算法对c类文本分类情况较好
C. 分类算法对b类文本分类情况较好
D. 分类算法对c类文本分类情况较差
查看答案
数据清洗的方法包括()
A. 缺失值处理
B. 噪声数据清除
C. 一致性检查
D. 重复数据记录处理
SwitchManager无法启动,提示信息:核心与界面连接失败,可能的原因有()。
A. SwitchManager服务未启动
B. 配置文件连接ip错误
C. 配置文件连接端口错误
D. 数据库信息设置错误
下列关于大数据的分析理念的说法中,正确的是()
A. 在数据基础上倾向于全体数据而不是抽样数据
B. 在分析方法上更注重相关分析而不是因果分析
C. 在分析效果上更追究效率而不是绝对精确
D. 在数据规模上强调相对数据而不是绝对数据
下列哪些命令是Mahout中用于实现贝叶斯文本分类算法()
A. seqdirectory
B. seq2sparse
C. trainnb
D. trainlogistic