下列关于离群点说法错误的是( )。
A: 数据集可能有多种类型的离群点
B: 给定一个数据集,数据对象的一个子集作为整体显著偏离整个数据集,数据对象的这个子集称为集体离群点
C: 如果一个数据对象显著的偏离数据集的其余部分,则这个数据对象为全局离群点
D: 一个对象只属于一种类型的离群点
A: 数据集可能有多种类型的离群点
B: 给定一个数据集,数据对象的一个子集作为整体显著偏离整个数据集,数据对象的这个子集称为集体离群点
C: 如果一个数据对象显著的偏离数据集的其余部分,则这个数据对象为全局离群点
D: 一个对象只属于一种类型的离群点
D
举一反三
- 离群点可以是合法的数据对象或者值。
- 下列关于离群点检测方法的说法中错误的是( )。 A: 基于统计的离群点检测在数据不充分的情况下,能保证所有离群点被发现 B: 基于距离的离群检测的缺点是不能处理不同密度区域的数据集 C: 基于密度的局部离群点检测能在样本空间数据分布不均匀的情况下也可以准确发现离群点 D: 基于密度的离群点检测使用每个对象到第k个最近邻的距离大小来度量密度
- 下列论述正确的为( ) A: 离群数据一定是错误数据。 B: 四分位数的一个主要应用领域是离群数据的判断。 C: 落在上下四分位数之外的数据为离群数据。 D: 数据分析过程中一定要删除离群数据。
- 在噪声数据中,波动数据比离群点数据偏离整体水平更大。
- 下列属于基于统计的离群点检测流程的是( )。 A: 设定数据集的分布模型 B: 不和谐检验 C: 发现离群点 D: 验证离群点
内容
- 0
在基于邻近度的方法中,离群点的定义不包括以下哪个?( ) A: 在距离D内,最近邻点数少于P的数据点为离群点 B: 一个对象的离群点得分是该对象周围密度的逆 C: 到第K个最近邻的距离最大的前n个数据点为离群点 D: 到K个最近邻平均距离最大的前n个数据点为离群点
- 1
离群点诊断可以看作是在给定的数据集合中定义离群点,并找到一个有效的方法来挖掘出这样的离群点
- 2
当数据集包含不同密度的区域时,基于距离的离群点检测方法不能很好地识别离群点。( )
- 3
在基于聚类的离群点检测中,对象是否被认为是离群点可能高度依赖于簇的个数。( )
- 4
离群点分为全局离群点,( )。 A: 部分离群点和条件离群点 B: 条件离群点和集体离群点 C: 部分离群点和集体离群点 D: 异常离群点和集体离群点