中国大学MOOC:自然语言处理中为了计算文档之间的相似度,往往需进行文档的量化表示,下面关于BOW(即Bag-Of-Wordsmodel)和VSM(VectorSpaceModel)的描述正确的是:
VSM,即向量空间模型。是一种表示文本文档的数学模型。将每个文档表示成同一向量空间的向量
在VSM,即向量空间模型中,所有文档的向量维度的数目都相同BOW,即词袋模型。即为了计算文档之间的相似度,假设可以忽略文档内的单词顺序和语法、句法等要素,将其仅仅看作是若干个词汇的集合
在VSM,即向量空间模型中,所有文档的向量维度的数目都相同BOW,即词袋模型。即为了计算文档之间的相似度,假设可以忽略文档内的单词顺序和语法、句法等要素,将其仅仅看作是若干个词汇的集合
举一反三
内容
- 0
中国大学MOOC: 在Word文档中,关于表格的操作,下面哪种说法是正确的( )
- 1
下面关于Word中文档段落与自然段的描述,不正确的是____
- 2
中国大学MOOC: 自然语言处理是能实现( )之间用自然语言进行有效通信的各种理论和方法。
- 3
大多数中文文本分类系统都采用词作为(),称作特征词。这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算。 A: 自变量 B: 因变量 C: 特征项 D: 向量
- 4
中国大学MOOC: 伪代码是用介于自然语言和 语言之间的文字和符号描述算法的工具。