常见的文本特征提取方法包括( )。
A: LSI
B: TF-IDF
C: 词嵌入
D: 向量空间模型
A: LSI
B: TF-IDF
C: 词嵌入
D: 向量空间模型
A,B,C,D
举一反三
- 有关文本特征的理解,错误的说法是哪个?( ) A: 文本不方便直接处理,需要提取表征内容的特征数值化。 B: TF-IDF和互信息都是文本特征提取的方法。 C: one-hot可以表示一个词的重要性。 D: 信息增益是文本特征提取的方法。
- 以下那种不属于文本信息分析的方法 A: 词袋模型 B: 广度优先搜索 C: TF-IDF D: 基于贝叶斯的概率模型
- 词袋模型是常用的文本特征提取方式。()
- 下面哪些算法不能用于文本的分词?( ) A: 基于规则的分词 B: TF-IDF算法 C: 反向最大匹配法 D: 词嵌入
- 在下列数据特征提取方法中,________常用于对语音时序数据的特征提取。 A: TF-IDF B: MFCC C: BOW D: ARIMA
内容
- 0
以下哪些属于文本分析模型?( ) A: TextRank B: 主题模型 C: TF-IDF D: 统计语言模型
- 1
有一包含1,000个样本的数据集,经过特征提取和特征选择,平均每个样本提取出了100个特征,共100,000个,其中不重复的特征为10,000个,如果采用向量空间模型将样本表示为向量,那么每个样本被表示为多少位的向量()
- 2
请简要介绍向量空间模型中几种常见的模型。
- 3
文本语料库的可能特征是什么( )。 A: 词性标注 B: 全是 C: 词的向量标注 D: 文本中词计数
- 4
不属于关键词提取算法的是() A: TF-IDF算法 B: TextRank算法 C: 主题模型算法 D: 关联算法