假设测试数据集中共计有70个正类样本,30个负类样本。且某次分类结果如下表所示(表中各项的含义如表下方的注释所示)。则分类的精确率是______ (要求:用小数表示,且保留小数点后两位)? 实际类别预测类别正例负例总计正例TP=40FN=30P(实际为正例)=70负例FP=10TN=20N(实际为负例)=30表中数据项的含义:True positives(TP): 被正确地划分为正例的个数,即实际为正例且被分类器划分为正例的实例数(样本数);False negatives(FN):被错误地划分为负例的个数,即实际为正例但被分类器划分为负例的实例数;False positives(FP): 被错误地划分为正例的个数,即实际为负例但被分类器划分为正例的实例数;True negatives(TN): 被正确地划分为负例的个数,即实际为负例且被分类器划分为负例的实例数。
自然语言处理中为了计算文档之间的相似度,往往需进行文档的量化表示,下面关于BOW(即Bag-Of-Words model)和VSM(Vector Space Model)的描述正确的是:
A. BOW,即词袋模型。即为了计算文档之间的相似度,假设可以忽略文档内的单词顺序和语法、句法等要素,将其仅仅看作是若干个词汇的集合。
B. VSM,即向量空间模型。是一种表示文本文档的数学模型。将每个文档表示成同一向量空间的向量。
C. 在VSM,即向量空间模型中,所有文档的向量维度的数目都相同。
D. 其它选项都不对
为了在python程序中进行英文自然语言的处理,如词语切分(Tokenization)词干提取(Stemming)等工作,需要使用的导入模块语句通常为:
A. import matplotlib.pyplot as plt
B. import nltk
C. import numpy as np
D. from sklearn import svm, datasets
刑罚的目的是预防犯罪,所以量刑时不需考虑责任大小,只需考虑预防的必要性。( )