大多数中文文本分类系统都采用词作为(),称作特征词。这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算。
A: 自变量
B: 因变量
C: 特征项
D: 向量
A: 自变量
B: 因变量
C: 特征项
D: 向量
C
举一反三
- 文档检索的向量空间模型是指将文档用向量表示,通过向量的计算来反映文档之间的相似度
- 下面哪些可能是一个文本语料库的特征1.一个文档中的词频统计2.文档中单词的布尔特征3.词向量4.词性标记5.基本语法依赖6.整个文档( )。 A: 1234 B: 123 C: 123456 D: 12345
- 下列关于文本分类的说法不正确的是() A: 文本分类是指按照预先定义的主题类别,由计算机自动地为文档集合中的每个文档确定一个类别 B: 文本分类大致可分为基于知识工程的分类系统和基于机器学习的分类系统 C: 文本的向量形式一般基于词袋模型构建,该模型考虑了文本词语的行文顺序 D: 构建文本的向量形式可以归结为文本的特征选择与特征权重计算两个步骤
- 用户访问万维网文档,万维网文档之间的链接,以及将万维网文档中的数据传送到用户计算机,实现这些功能所采用的协议是( )。 A: ICMP B: SNMP C: HTTP D: IMAP
- 用户可以选择扩展名为GIF的文件作为()。 A: AEXCEL文档 B: B墙纸 C: CWORD文档 D: DPPT文档
内容
- 0
以下关于HTML文档的说法正确的一项是()。 A: <HTML>与</HTML>与这两个标记合起来说明在它们之间的文本表示两个HTML文本 B: HTML文档是一个可执行的文档 C: HTML文档只是一种简单的ASCII码文本 D: HTML文档的结束标记可以省略不写
- 1
关于文档的向量表示模型,采用深度学习中的词向量表示模型和传统的单纯基于词频向量表示方法的区别的描述错误的是 A: 传统文档的表示一般采用词袋BOW模型,表示为高维向量 B: 深度学习中的词向量表示模型通常是一种低维度向量 C: 深度学习中的词向量表示模型存在的一个突出问题就是“词汇鸿沟”现象 D: 传统方法中词向量表示模型存在一个突出问题就是“词汇鸿沟”现象
- 2
特征词可进行计算的因素有( ) A: 词频词性 B: 文档、词语长度 C: 词语直径 D: 首次出现位置 E: 词语分布偏差
- 3
中文word启动之后,系统默认的空白文档名称是() A: 文档1.doc B: 新文档.doc C: 文档.doc D: 我的文档.doc
- 4
3、以下关于HTML文档说法正确的是( )。 A: HTML文档是一种简单的ASCII文本 B: HTML文档是一个可执行文档 C: 和这两个标记合起来,说明它们之间的文本表示两个HTML文档 D: HTML文档的结束标记