有关文本分析的说法,正确的是哪些?( )
A: 文本属于非结构化数据,因此需要经过预处理转化为向量等结构才方便处理。
B: 处理文本分类需要经历原始文本的提取、分词等预处理、特征提取与表示、分类模型构建以及评估等阶段。
C: 从一个文本集中查询包含某些主题的文本也属于文本分析。
D: 从一个word文档中查询是否包含某个词汇属于文本分析。
A: 文本属于非结构化数据,因此需要经过预处理转化为向量等结构才方便处理。
B: 处理文本分类需要经历原始文本的提取、分词等预处理、特征提取与表示、分类模型构建以及评估等阶段。
C: 从一个文本集中查询包含某些主题的文本也属于文本分析。
D: 从一个word文档中查询是否包含某个词汇属于文本分析。
举一反三
- 不属于文本分析流程的是: A: 文本预处理 B: 文本规范化 C: 自动分词 D: 韵律处理
- 文本数据处理的基本步骤包括文本采集、文本预处理、特征提取与特征选择、建模分析等。
- 对于汉语语音合成系统,其中文本分析的处理流程包括文本预处理、文本规范化、自动分词、词性标注、多音字消歧、节奏预测等。
- 下列不属于文本分析过程的是( )。 A: 分词 B: 文本聚类 C: 特征提取与表示 D: 知识提取
- 在如下有关文本分析的描述中,错误的是( ) A: 在对文本进行分析之前,可先从网络上爬取待分析的文本数据 B: 自然语言处理技术不能对词性进行标注 C: 在对中文文本进行分析之前,应将中文文本进行分词处理 D: 词袋法可将文本转化为计算机能够理解的向量