中文分词的作用是________。 A: 将中文句子划分为以词为单位的词序列 B: 去掉文本中与主题无关的句子 C: 将文本转换为数字向量 D: 从文本中抽取与主题有关的词语

2022-06-05

中文分词的作用是________。 A: 将中文句子划分为以词为单位的词序列 B: 去掉文本中与主题无关的句子 C: 将文本转换为数字向量 D: 从文本中抽取与主题有关的词语

中文分词的作用是________。
A: 将中文句子划分为以词为单位的词序列
B: 去掉文本中与主题无关的句子
C: 将文本转换为数字向量
D: 从文本中抽取与主题有关的词语

答案：

A

举一反三

词袋模型的主要缺点是________。 A: 将句子表示为等长的数字向量，无法反映句子长度 B: 只使用主题词表示文本，漏掉其他词语信息 C: 只使用文本中关键句子表示整段文本信息 D: 只考虑文本中的词信息，忽略了词序、语法以及句法信息
在对文本进行分词时，哪些词可以去掉？ A: 英文：the, a, bad, poor… B: 中文：文本，可视化，大数据… C: 英文：text, analytics, mooc… D: 中文：的，了，是…
在对文本进行分词时，哪些词可以去掉（） A: 英文：the,a,an,so,hence… B: 中文：的，了，是… C: 中文：文本，可视化，大数据… D: 英文：text,analytics,mooc…
在如下有关文本分析的描述中，错误的是（） A: 在对文本进行分析之前，可先从网络上爬取待分析的文本数据 B: 自然语言处理技术不能对词性进行标注 C: 在对中文文本进行分析之前，应将中文文本进行分词处理 D: 词袋法可将文本转化为计算机能够理解的向量
中文文本分析不需要分词。

内容

0
中文文本分析不需要分词(<br/>)
1
下列关于文本分析的叙述中何者为非？（） A: 词袋模型（bag-of-wordsmodel）适用于描述文本的一个简单的数学模型，也是常用的一种文本特征提取方式 B: 词袋模型对文文件进行了很大程度的简化，但一定程度上仍然保留了文文件的主题信息 C: 对文本建构词袋之前，需要先借着额外的手段将文本中的词语分开，这项技术称之为分词（word-segment） D: 在文档中，例如『的』、『也』这样构成一个句子的基本字词对文文件的主题区分并无帮助，且不携带任何主题信息的高频词称为停止词（Stopword），在构建词典时必须去除 E: 一个词在文文件中出现的频率称为词频率（termfrequency）其定义为该词语在文本中出现的次数与这段文本中词语的总数的商
2
关于jieba库的函数jieba.lcut(x)，以下选项中描述正确的是（）。 A: 精确模式，返回中文文本x分词后的列表变量 B: 向分词词典中增加新词w C: 全模式，返回中文文本x分词后的列表变量 D: 搜索引擎模式，返回中文文本x分词后的列表变量
3
‏关于jieba库的函数jieba.lcut(x),以下选项中描述正确的是 A: 精确模式，返回中文文本x分词后的列表变量 B: 全模式,返回中文文本x分词后的列表变量 C: 搜索引擎模式,返回中文文本x分词后的列表变量 D: 向分词词典中增加新词w
4
关于jieba库的函数jieba.lcut_for_search(x)，以下选项中描述正确的是‪‪‪‪‪‫‪‪‪‪‪‫‪‪‪‪‪‫‪‪‪‪‪‫‪‪‪‪‪‪‫（）。 A: 全模式，返回中文文本x分词后的列表变量 B: 精确模式，返回中文文本x分词后的列表变量 C: 搜索引擎模式，返回中文文本x分词后的列表变量 D: 向分词词典中增加新词w