在对文本进行分词时,哪些词可以去掉?
的,了,是…
举一反三
- 在对文本进行分词时,哪些词可以去掉? A: 英文:the, a, bad, poor… B: 中文:文本,可视化,大数据… C: 英文:text, analytics, mooc… D: 中文:的,了,是…
- 在对文本进行分词时,哪些词可以去掉() A: 英文:the,a,an,so,hence… B: 中文:的,了,是… C: 中文:文本,可视化,大数据… D: 英文:text,analytics,mooc…
- 中文分词时,以下哪个词/字可以考虑去掉?
- 在如下有关文本分析的描述中,错误的是( )。 A: 自然语言处理技术不能对词性进行标注 B: 词袋法可将文本转化为计算机能够理解的向量 C: 在对中文文本进行分词处理时,可利用停用词库,对分词进行降噪处理。 D: 在对文本进行分析之前,可先从网络上爬取待分析的文本数据。
- 在如下有关文本分析的描述中,错误的是( ) A: 在对文本进行分析之前,可先从网络上爬取待分析的文本数据 B: 自然语言处理技术不能对词性进行标注 C: 在对中文文本进行分析之前,应将中文文本进行分词处理 D: 词袋法可将文本转化为计算机能够理解的向量
内容
- 0
在对病历数据进行建模时,以下那些操作是必须的( )。 A: 使用数字对分词后的病历进行标记 B: 计算病历中所含的词的种类 C: 对病历进行分词 D: 打乱分词后的顺序
- 1
下面哪些算法不能用于文本的分词?( ) A: 基于规则的分词 B: TF-IDF算法 C: 反向最大匹配法 D: 词嵌入
- 2
中文分词的作用是________。 A: 将中文句子划分为以词为单位的词序列 B: 去掉文本中与主题无关的句子 C: 将文本转换为数字向量 D: 从文本中抽取与主题有关的词语
- 3
商品评论文本数据的预处理包括哪些工作内容? A: 文本采集 B: 文本去重 C: 短句删除 D: 文本分词 E: 机械压缩去词
- 4
使用jieba库提供的______方法,可以对文本进行分词操作。