对于MLlib中向量与LabledPoint,以下描述正确的是()
A. LabledPoint是一种基于向量扩展得到的数据结构
B. 向量既可以是本地的也可以是分布式的
C. MLlib中既可以定义稀疏向量也可以定义密集向量
D. 在LabledPoint中除了包含一个向量成员外,还包含一个Double类型的标识成员
以下属于MLlib中能够实的接口有()
A. KMeans
B. SVMWithSGD
C. ALS
D. LinearRegressionWithSGD
SparkStreaming可以对多种数据源()进行类似Map、Reduce和Join等复杂操作。
A. Kdfka
B. Flume
C. Twitter
D. Zero
20Newsgroups数据集是机器学习研究中常用的标准数据集,它使用20个Usenet新闻单位上几个月发布的18828个消息,共18828个文件,如果对该数据集使用mahout进行文本分类,分类后得到的混淆矩阵中,部分结果如下图所示:图中第一行是类别名称,第二行是属于a类的分类情况(a类文本原有168篇),第三行是属于b类的分类情况(b类文本原有180篇),第四行是c类的分类情况(c类文本原有189篇),根据各行的分类情况,以下分析正确的是()
A. 分类算法对a类文本分类情况较好
B. 分类算法对c类文本分类情况较好
C. 分类算法对b类文本分类情况较好
D. 分类算法对c类文本分类情况较差