文本数据处理的基本步骤包括文本采集、文本预处理、特征提取与特征选择、建模分析等。
举一反三
- 文本数据处理的主要步骤包括:①数据分析 ②特征提取 ③分词 ④结果呈现 ⑤文本数据获取下列文本数据处理顺序正确的是( ) A: ①⑤②③④ B: ②⑤③①④ C: ⑤①③②④ D: ⑤③②①④
- 有关文本分析的说法,正确的是哪些?( ) A: 文本属于非结构化数据,因此需要经过预处理转化为向量等结构才方便处理。 B: 处理文本分类需要经历原始文本的提取、分词等预处理、特征提取与表示、分类模型构建以及评估等阶段。 C: 从一个文本集中查询包含某些主题的文本也属于文本分析。 D: 从一个word文档中查询是否包含某个词汇属于文本分析。
- 有关文本特征的理解,错误的说法是哪个?( ) A: 文本不方便直接处理,需要提取表征内容的特征数值化。 B: TF-IDF和互信息都是文本特征提取的方法。 C: one-hot可以表示一个词的重要性。 D: 信息增益是文本特征提取的方法。
- 对于汉语语音合成系统,其中文本分析的处理流程包括文本预处理、文本规范化、自动分词、词性标注、多音字消歧、节奏预测等。
- 不属于文本分析流程的是: A: 文本预处理 B: 文本规范化 C: 自动分词 D: 韵律处理