自然语言处理中为了计算文档之间的相似度,往往需进行文档的量化...Space Model)的描述正确的是:
VSM,即向量空间模型。是一种表示文本文档的数学模型。将每个文档表示成同一向量空间的向量在VSM,即向量空间模型中,所有文档的向量维度的数目都相同BOW,即词袋模型。即为了计算文档之间的相似度,假设可以忽略文档内的单词顺序和语法、句法等要素,将其仅仅看作是若干个词汇的集合
举一反三
- 中国大学MOOC:自然语言处理中为了计算文档之间的相似度,往往需进行文档的量化表示,下面关于BOW(即Bag-Of-Wordsmodel)和VSM(VectorSpaceModel)的描述正确的是:
- 文档检索的向量空间模型是指将文档用向量表示,通过向量的计算来反映文档之间的相似度
- 大多数中文文本分类系统都采用词作为(),称作特征词。这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算。 A: 自变量 B: 因变量 C: 特征项 D: 向量
- DOM(Document Object Model)称为文档对象模型,是一个表示和处理HTML文档的应用程序接口。
- “自然语言处理”、“语言信息处理”、“计算语言学”三者之间无交叉关联。
内容
- 0
在有关计算机软件、程序、文档的描述中。下面不正确的是( )。 A: 文档是为了便于了解程序所需的资料说明 B: 程序是计算任务的处理对象和处理规则的描述 C: 软件、程序和文档都必须以文件的形式存放在计算机的磁盘上 D: 软件是计算机系统中的程序和有关的文档
- 1
下面关于Word中文档段落与自然段的描述,不正确的是()。 A: 按Enter键可产生文档段落 B: 文档段落与自然段的标记符号不同 C: 按Shift+Enter键可产生自然段 D: 文档段落属于自然段落的一部分
- 2
DOM(Document Object Model)最适合应用在()。 A.内存受限时 B.只有特定的元素需要处理 C.文档很大 D.文档必须非顺序地处理
- 3
()描述模式文档中元素之间的计算关系。 A: 计算链接库 B: 展示链接库 C: 标签链接库 D: 参考链接库
- 4
音乐演奏的相似度不可量化 A: 正确 B: 错误