针对文本挖掘,下列叙述何者为非?()
A: 词频统计的方法中,对于要将单一主题的文文件从海量的语料库中发掘出来是很轻易的,不需要借助额外的技术来获取词频向量
B: 主题模型(topicmodel)是描述语料库及其中潜在的一类数字模型,首先考虑到的是如何用数学语言去描述一个主题
C: 词频向量是由所有的词频组合在一起,同时,词频为该字词在文本出现的总数除以文档中的总词语数
D: 文党的词频、主题的比重、主题的词频三者之间的关系为D(文档词频)=W(主题比重)*T(主题词频)
E: 文本挖掘技术基本上属于无监督学习方法
A: 词频统计的方法中,对于要将单一主题的文文件从海量的语料库中发掘出来是很轻易的,不需要借助额外的技术来获取词频向量
B: 主题模型(topicmodel)是描述语料库及其中潜在的一类数字模型,首先考虑到的是如何用数学语言去描述一个主题
C: 词频向量是由所有的词频组合在一起,同时,词频为该字词在文本出现的总数除以文档中的总词语数
D: 文党的词频、主题的比重、主题的词频三者之间的关系为D(文档词频)=W(主题比重)*T(主题词频)
E: 文本挖掘技术基本上属于无监督学习方法
A
举一反三
- 在主题模型中,利用矩阵记号,可以将文文件词频、主题比重、主题词频三者的关系表示为?() A: 主题词频=主题比重×文文件词频 B: 文文件词频=主题比重×主题词频 C: 主题比重=文文件词频×主题词频 D: 主题词频=主题比重/文文件词频 E: 文文件词频=主题比重/主题词频
- 主题模型的核心,包括?() A: 语料库 B: 文档词频 C: 主题比重 D: 主题词频
- 某文本的词频向量为幸福快乐爸爸孩子旅游回家吃饭妈妈……2322191813121010……该文本最可能描述了什么主题?
- 某文本的词频向量如下表,该文本描述的主题是。[img=922x81]17e0b312dc81b60.png[/img] A: 科学研究 B: 家庭生活 C: 校园生活 D: 体育健身
- 某文本的词频向量为[img=743x65]18039760005203d.png[/img]该文本最可能描述了什么主题? A: 足球比赛 B: 家庭生活 C: 科学技术 D: 校园生活
内容
- 0
关于中文在线字、词频统计工具,下列说法正确的有()。 A: 语料库在线这个网站可以统计字频。 B: 语料库在线这个网站可以统计词频。 C: 语料库在线这个网站进行字频统计、词频统计是免费的。 D: 语料库在线这个网站中提供字词频统计软件,可以免费下载后安装使用。
- 1
北语的汉语词频统计语料库有哪些特点?
- 2
经典距离度量中比较适合度量文档词频向量之间相似性的是 ______ 。
- 3
词频向量有什么作用?
- 4
中国知网(CNKI)可以对用户输入的检索词进行词频控制,下列说法正确的是? A: 该词频指检索词在相应检索字段中出现的频次 B: 该词频指检索词在该数据库中被用户检索过的总频次 C: 该词频指检索词在全文中出现的频次 D: 词频为3,表示检索词在全文中至少出现3次