反映一个词语对于一篇文档的重要性的两个指标分别是?()
A: 停止词、低频词
B: 主题模型、词袋模型
C: 文分词、英文分词
D: 词频率、逆文文件频率
E: 词频率向量、逆频率向量
A: 停止词、低频词
B: 主题模型、词袋模型
C: 文分词、英文分词
D: 词频率、逆文文件频率
E: 词频率向量、逆频率向量
D
举一反三
- 在主题模型中,利用矩阵记号,可以将文文件词频、主题比重、主题词频三者的关系表示为?() A: 主题词频=主题比重×文文件词频 B: 文文件词频=主题比重×主题词频 C: 主题比重=文文件词频×主题词频 D: 主题词频=主题比重/文文件词频 E: 文文件词频=主题比重/主题词频
- 关于文档的向量表示模型,采用深度学习中的词向量表示模型和传统的单纯基于词频向量表示方法的区别的描述错误的是 A: 传统文档的表示一般采用词袋BOW模型,表示为高维向量 B: 深度学习中的词向量表示模型通常是一种低维度向量 C: 深度学习中的词向量表示模型存在的一个突出问题就是“词汇鸿沟”现象 D: 传统方法中词向量表示模型存在一个突出问题就是“词汇鸿沟”现象
- 关于文档的向量表示模型,采用深度学习中的词向量表示模型和传统的单纯基于词频向量表示方法的区别的描述错误的是
- 下列关于文本分析的叙述中何者为非?() A: 词袋模型(bag-of-wordsmodel)适用于描述文本的一个简单的数学模型,也是常用的一种文本特征提取方式 B: 词袋模型对文文件进行了很大程度的简化,但一定程度上仍然保留了文文件的主题信息 C: 对文本建构词袋之前,需要先借着额外的手段将文本中的词语分开,这项技术称之为分词(word-segment) D: 在文档中,例如『的』、『也』这样构成一个句子的基本字词对文文件的主题区分并无帮助,且不携带任何主题信息的高频词称为停止词(Stopword),在构建词典时必须去除 E: 一个词在文文件中出现的频率称为词频率(termfrequency)其定义为该词语在文本中出现的次数与这段文本中词语的总数的商
- 针对文本挖掘,下列叙述何者为非?() A: 词频统计的方法中,对于要将单一主题的文文件从海量的语料库中发掘出来是很轻易的,不需要借助额外的技术来获取词频向量 B: 主题模型(topicmodel)是描述语料库及其中潜在的一类数字模型,首先考虑到的是如何用数学语言去描述一个主题 C: 词频向量是由所有的词频组合在一起,同时,词频为该字词在文本出现的总数除以文档中的总词语数 D: 文党的词频、主题的比重、主题的词频三者之间的关系为D(文档词频)=W(主题比重)*T(主题词频) E: 文本挖掘技术基本上属于无监督学习方法
内容
- 0
在中国知网(CNKI)专业检索功能下,%代表什么含义? A: 截词符 B: 通配符 C: 包含检索词或该检索词的切分词 D: 词频限制符
- 1
主题模型的核心,包括?() A: 语料库 B: 文档词频 C: 主题比重 D: 主题词频
- 2
文本可视化中的词频向量指的是? A: 某个字/词 的使用次数 B: 所有字/词 的总数 C: 其他都正确
- 3
关于词云图的作用,下列描述错误的是() A: 能够根据词频,显示大小不一的词语图片 B: 通过词云图,能大概看出一段文章的主旨 C: 词云图可以用来对展示数据的变化趋势 D: 想要将一段文章生成词云图,通常需要先分词
- 4
中文分词的作用是________。 A: 将中文句子划分为以词为单位的词序列 B: 去掉文本中与主题无关的句子 C: 将文本转换为数字向量 D: 从文本中抽取与主题有关的词语