数据清理之遗漏值

12月

1797 0 0

填补遗漏值的方法：

1.忽略元组：当类标号缺少时通常这样做（假定挖掘任务涉及分类或描述）。除非元组有多个属性缺少值，否则该方法不是很有效。当每个属性缺少值的百分比很高时，它的性能非常差。

2. 人工填写遗漏值：一般地说，该方法很费时，并且当数据集很大，缺少很多值时，该方法可能行不通。

3. 使用一个全局常量填充遗漏值：将遗漏的属性值用同一个常数（如“Unknown”或 –∞）替换。如果遗漏值都用“Unknown”替换，挖掘程序可能误以为它们形成了一个有趣的概念，因为它们都具有相同的值——“Unknown”。因此，尽管该方法简单，我们并不推荐它。

4. 使用属性的平均值填充遗漏值：例如，假定 AllElectronics 顾客的平均收入为$28,000，则使用该值替换 income 中的遗漏值。

5. 使用与给定元组属同一类的所有样本的平均值：例如，如果将顾客按 credit_risk 分类，则用具有相同信用度的顾客的平均收入替换 income 中的遗漏值。

6. 使用最可能的值填充遗漏值：可以用回归、使用贝叶斯形式化方法或判定树归纳等基于推导的工具确定。例如，利用你的数据集中其他顾客的属性，你可以构造一棵判定树，来预测 income的遗漏值。