下列关于文本分析的叙述中何者为非?()
A: 词袋模型(bag-of-wordsmodel)适用于描述文本的一个简单的数学模型,也是常用的一种文本特征提取方式
B: 词袋模型对文文件进行了很大程度的简化,但一定程度上仍然保留了文文件的主题信息
C: 对文本建构词袋之前,需要先借着额外的手段将文本中的词语分开,这项技术称之为分词(word-segment)
D: 在文档中,例如『的』、『也』这样构成一个句子的基本字词对文文件的主题区分并无帮助,且不携带任何主题信息的高频词称为停止词(Stopword),在构建词典时必须去除
E: 一个词在文文件中出现的频率称为词频率(termfrequency)其定义为该词语在文本中出现的次数与这段文本中词语的总数的商
A: 词袋模型(bag-of-wordsmodel)适用于描述文本的一个简单的数学模型,也是常用的一种文本特征提取方式
B: 词袋模型对文文件进行了很大程度的简化,但一定程度上仍然保留了文文件的主题信息
C: 对文本建构词袋之前,需要先借着额外的手段将文本中的词语分开,这项技术称之为分词(word-segment)
D: 在文档中,例如『的』、『也』这样构成一个句子的基本字词对文文件的主题区分并无帮助,且不携带任何主题信息的高频词称为停止词(Stopword),在构建词典时必须去除
E: 一个词在文文件中出现的频率称为词频率(termfrequency)其定义为该词语在文本中出现的次数与这段文本中词语的总数的商
举一反三
- 词袋模型是常用的文本特征提取方式。()
- 反映一个词语对于一篇文档的重要性的两个指标分别是?() A: 停止词、低频词 B: 主题模型、词袋模型 C: 文分词、英文分词 D: 词频率、逆文文件频率 E: 词频率向量、逆频率向量
- 中文分词的作用是________。 A: 将中文句子划分为以词为单位的词序列 B: 去掉文本中与主题无关的句子 C: 将文本转换为数字向量 D: 从文本中抽取与主题有关的词语
- 词袋模型的主要缺点是________。 A: 将句子表示为等长的数字向量,无法反映句子长度 B: 只使用主题词表示文本,漏掉其他词语信息 C: 只使用文本中关键句子表示整段文本信息 D: 只考虑文本中的词信息,忽略了词序、语法以及句法信息
- 在文本分类应用中,关于词袋模型的描述正确的是: