针对文本挖掘,下列叙述何者为非?()
A: 词频统计的方法中,对于要将单一主题的文文件从海量的语料库中发掘出来是很轻易的,不需要借助额外的技术来获取词频向量
B: 主题模型(topicmodel)是描述语料库及其中潜在的一类数字模型,首先考虑到的是如何用数学语言去描述一个主题
C: 词频向量是由所有的词频组合在一起,同时,词频为该字词在文本出现的总数除以文档中的总词语数
D: 文党的词频、主题的比重、主题的词频三者之间的关系为D(文档词频)=W(主题比重)*T(主题词频)
E: 文本挖掘技术基本上属于无监督学习方法
A: 词频统计的方法中,对于要将单一主题的文文件从海量的语料库中发掘出来是很轻易的,不需要借助额外的技术来获取词频向量
B: 主题模型(topicmodel)是描述语料库及其中潜在的一类数字模型,首先考虑到的是如何用数学语言去描述一个主题
C: 词频向量是由所有的词频组合在一起,同时,词频为该字词在文本出现的总数除以文档中的总词语数
D: 文党的词频、主题的比重、主题的词频三者之间的关系为D(文档词频)=W(主题比重)*T(主题词频)
E: 文本挖掘技术基本上属于无监督学习方法
举一反三
- 在主题模型中,利用矩阵记号,可以将文文件词频、主题比重、主题词频三者的关系表示为?() A: 主题词频=主题比重×文文件词频 B: 文文件词频=主题比重×主题词频 C: 主题比重=文文件词频×主题词频 D: 主题词频=主题比重/文文件词频 E: 文文件词频=主题比重/主题词频
- 主题模型的核心,包括?() A: 语料库 B: 文档词频 C: 主题比重 D: 主题词频
- 某文本的词频向量为幸福快乐爸爸孩子旅游回家吃饭妈妈……2322191813121010……该文本最可能描述了什么主题?
- 某文本的词频向量如下表,该文本描述的主题是。[img=922x81]17e0b312dc81b60.png[/img] A: 科学研究 B: 家庭生活 C: 校园生活 D: 体育健身
- 某文本的词频向量为[img=743x65]18039760005203d.png[/img]该文本最可能描述了什么主题? A: 足球比赛 B: 家庭生活 C: 科学技术 D: 校园生活