分类分析是将复杂问题简单化之后,再进行分析和处理的一种数据分析方法。也就是说,分类分析的基本思想是将大量数据分为若干个______ 之后,分别分析每个类别的统计特征,通过类别的特征反映数据的总体特征。 聚类指将数据集聚集成几个______ ,使得同一个聚类中的数据集之间最大程度地______ ,而不同聚类中的数据集最大程度地不同,利用分布规律从数据集中发现有用的规律。 聚类与分类的区别在于,聚类不依赖于______ 好的类,不需要训练集,因此通常作为其他算法的预处理步骤。。
查看答案
挖掘过程的流程,第一步是______ ,第二步是评估,第三步是部署
海量数据中,有少量数据与通常数据的行为特征不一样,在数据的某些属性方面有很大的差异。此时需要进行异常检测,异常检测的基本方法是寻找观测结果与参照值之间有意义的差别。下列哪项属于异常检测的方法?( )
A. 平滑处理
B. 建立离群点监测模型
C. 数据标准化
D. K-Means算法
以下关于数值规约的说法,正确的是?( )
A. 参数回归通常采用一个模型来评估数据,该方法需要存放参数,也需要存放实际数据
B. 采用抽样方法得到样本的花费正比例于数据集的大小
C. 聚类技术把数据特征值看作对象
D. 直方图使用分箱方法来近似数据分布
数据挖掘的数据源,必须满足那个条件?( )
A. 纯粹性,没有噪声
B. 结构化,有条理
C. 真实性,切合实际
D. 普适性,放之四海皆准