• 2022-05-30
    下列关于文本分析的叙述中何者为非?()
    A: 词袋模型(bag-of-wordsmodel)适用于描述文本的一个简单的数学模型,也是常用的一种文本特征提取方式
    B: 词袋模型对文文件进行了很大程度的简化,但一定程度上仍然保留了文文件的主题信息
    C: 对文本建构词袋之前,需要先借着额外的手段将文本中的词语分开,这项技术称之为分词(word-segment)
    D: 在文档中,例如『的』、『也』这样构成一个句子的基本字词对文文件的主题区分并无帮助,且不携带任何主题信息的高频词称为停止词(Stopword),在构建词典时必须去除
    E: 一个词在文文件中出现的频率称为词频率(termfrequency)其定义为该词语在文本中出现的次数与这段文本中词语的总数的商