大多数中文文本分类系统都采用词作为(),称作特征词。这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算。
A: 自变量
B: 因变量
C: 特征项
D: 向量
A: 自变量
B: 因变量
C: 特征项
D: 向量
举一反三
- 文档检索的向量空间模型是指将文档用向量表示,通过向量的计算来反映文档之间的相似度
- 下面哪些可能是一个文本语料库的特征1.一个文档中的词频统计2.文档中单词的布尔特征3.词向量4.词性标记5.基本语法依赖6.整个文档( )。 A: 1234 B: 123 C: 123456 D: 12345
- 下列关于文本分类的说法不正确的是() A: 文本分类是指按照预先定义的主题类别,由计算机自动地为文档集合中的每个文档确定一个类别 B: 文本分类大致可分为基于知识工程的分类系统和基于机器学习的分类系统 C: 文本的向量形式一般基于词袋模型构建,该模型考虑了文本词语的行文顺序 D: 构建文本的向量形式可以归结为文本的特征选择与特征权重计算两个步骤
- 用户访问万维网文档,万维网文档之间的链接,以及将万维网文档中的数据传送到用户计算机,实现这些功能所采用的协议是( )。 A: ICMP B: SNMP C: HTTP D: IMAP
- 用户可以选择扩展名为GIF的文件作为()。 A: AEXCEL文档 B: B墙纸 C: CWORD文档 D: DPPT文档