下列不属于文本分析过程的是( )。
A: 分词
B: 文本聚类
C: 特征提取与表示
D: 知识提取
A: 分词
B: 文本聚类
C: 特征提取与表示
D: 知识提取
举一反三
- 有关文本分析的说法,正确的是哪些?( ) A: 文本属于非结构化数据,因此需要经过预处理转化为向量等结构才方便处理。 B: 处理文本分类需要经历原始文本的提取、分词等预处理、特征提取与表示、分类模型构建以及评估等阶段。 C: 从一个文本集中查询包含某些主题的文本也属于文本分析。 D: 从一个word文档中查询是否包含某个词汇属于文本分析。
- 文本分析又称为______ ,是指从无结构的文本中提取有用信息或知识的过程。
- 有关文本特征的理解,错误的说法是哪个?( ) A: 文本不方便直接处理,需要提取表征内容的特征数值化。 B: TF-IDF和互信息都是文本特征提取的方法。 C: one-hot可以表示一个词的重要性。 D: 信息增益是文本特征提取的方法。
- 文本数据处理的主要步骤包括:①数据分析 ②特征提取 ③分词 ④结果呈现 ⑤文本数据获取下列文本数据处理顺序正确的是( ) A: ①⑤②③④ B: ②⑤③①④ C: ⑤①③②④ D: ⑤③②①④
- 下列属于文本分析应用的是( )。 A: 文本聚类 B: 实体挖掘 C: 观点分析 D: 文档摘要