• 2022-06-05
    中文分词的作用是________。
    A: 将中文句子划分为以词为单位的词序列
    B: 去掉文本中与主题无关的句子
    C: 将文本转换为数字向量
    D: 从文本中抽取与主题有关的词语
  • A

    内容

    • 0

      中文文本分析不需要分词(<br/>)

    • 1

      下列关于文本分析的叙述中何者为非?() A: 词袋模型(bag-of-wordsmodel)适用于描述文本的一个简单的数学模型,也是常用的一种文本特征提取方式 B: 词袋模型对文文件进行了很大程度的简化,但一定程度上仍然保留了文文件的主题信息 C: 对文本建构词袋之前,需要先借着额外的手段将文本中的词语分开,这项技术称之为分词(word-segment) D: 在文档中,例如『的』、『也』这样构成一个句子的基本字词对文文件的主题区分并无帮助,且不携带任何主题信息的高频词称为停止词(Stopword),在构建词典时必须去除 E: 一个词在文文件中出现的频率称为词频率(termfrequency)其定义为该词语在文本中出现的次数与这段文本中词语的总数的商

    • 2

      关于jieba库的函数jieba.lcut(x),以下选项中描述正确的是( )。 A: 精确模式,返回中文文本x分词后的列表变量 B: 向分词词典中增加新词w C: 全模式,返回中文文本x分词后的列表变量 D: 搜索引擎模式,返回中文文本x分词后的列表变量

    • 3

      ‏关于jieba库的函数jieba.lcut(x),以下选项中描述正确的是​ A: 精确模式,返回中文文本x分词后的列表变量 B: 全模式,返回中文文本x分词后的列表变量 C: 搜索引擎模式,返回中文文本x分词后的列表变量 D: 向分词词典中增加新词w

    • 4

      关于jieba库的函数jieba.lcut_for_search(x),以下选项中描述正确的是‪‪‪‪‪‫‪‪‪‪‪‫‪‪‪‪‪‫‪‪‪‪‪‫‪‪‪‪‪‪‫( )。 A: 全模式,返回中文文本x分词后的列表变量 B: 精确模式,返回中文文本x分词后的列表变量 C: 搜索引擎模式,返回中文文本x分词后的列表变量 D: 向分词词典中增加新词w