数据集很大、缺失很多值的时候可以使用人工填写缺失值的方法填补缺失值。
举一反三
- 处理缺失数据的方法有(<br/>) A: 直接删除缺失属性的记录 B: 人工填写 C: 使用全局常量填充缺失值 D: 使用属性的中心趋势度量值填充缺失值
- 关于缺失值说法错误的是() A: 缺失值不包含任何信息,直接删除就可以,不必处理 B: 可以使用一个全局变量来填写缺失值 C: 可以单独作为一类 D: 可以通过人工调查填充缺失值
- 可以使用下列那种方式填充缺失值( ) A: 利用缺省值填充缺失值。 B: 人工填充缺失值。 C: 利用临近值填充缺失值。 D: 利用平均值或者中位数填充缺失值。
- 某大样本数据集的缺失值占比约10%。数据分析师小A首先删除了所有有缺失值的样本,建立了回归模型。然后用某种方法进行了缺失值处理后,重新建立了回归模型,发现模型的VIF值较之前有了很大的增幅。请问小A有可能采用的哪种方法进行的缺失值处理?() A: 均值填补 B: K-means聚类填补 C: 回归填补 D: 忽略缺失值的极大似然估计
- 下列关于缺失值的说法错误的是( )。 A: 可以利用统计量对缺失值进行填补 B: 可以利用 K 近邻值对缺失值进行填补 C: 只要有缺失值就必须把对应记录删除 D: 对于缺失值较多的属性可以考虑删除