文本数据处理的基本步骤包括文本采集、文本预处理、特征提取与特征选择、建模分析等。
对
举一反三
- 文本数据处理的主要步骤包括:①数据分析 ②特征提取 ③分词 ④结果呈现 ⑤文本数据获取下列文本数据处理顺序正确的是( ) A: ①⑤②③④ B: ②⑤③①④ C: ⑤①③②④ D: ⑤③②①④
- 有关文本分析的说法,正确的是哪些?( ) A: 文本属于非结构化数据,因此需要经过预处理转化为向量等结构才方便处理。 B: 处理文本分类需要经历原始文本的提取、分词等预处理、特征提取与表示、分类模型构建以及评估等阶段。 C: 从一个文本集中查询包含某些主题的文本也属于文本分析。 D: 从一个word文档中查询是否包含某个词汇属于文本分析。
- 有关文本特征的理解,错误的说法是哪个?( ) A: 文本不方便直接处理,需要提取表征内容的特征数值化。 B: TF-IDF和互信息都是文本特征提取的方法。 C: one-hot可以表示一个词的重要性。 D: 信息增益是文本特征提取的方法。
- 对于汉语语音合成系统,其中文本分析的处理流程包括文本预处理、文本规范化、自动分词、词性标注、多音字消歧、节奏预测等。
- 不属于文本分析流程的是: A: 文本预处理 B: 文本规范化 C: 自动分词 D: 韵律处理
内容
- 0
下列不属于文本分析过程的是( )。 A: 分词 B: 文本聚类 C: 特征提取与表示 D: 知识提取
- 1
语音合成流程包括: A: 文本分析 B: 语音信号预处理 C: 韵律处理 D: 声学处理
- 2
商品评论文本数据的预处理包括哪些工作内容? A: 文本采集 B: 文本去重 C: 短句删除 D: 文本分词 E: 机械压缩去词
- 3
文本是社会媒体数据的核心,其研究包括文本特征提取与选择、话题挖掘、事件和新闻检测。在文档预处理阶段,进行特征抽取时不会用到的方法是() A: 情感分析 B: 形态分析 C: 句法分析 D: 语义分析
- 4
文本分析流程包括: A: 文本预处理 B: 文本规范化 C: 自动分词 D: 字音转换