数据处理之噪音数据

12月

3119 0 0

噪音是测量变量的随机错误或偏差，去掉噪音才能让数据整体更平滑，方法如下：

1.分箱：分箱方法通过考察“邻居”（即，周围的值）来平滑存储数据的值。存储的值被分布到一些“桶”或箱中。由于分箱方法导致值相邻，因此它进行局部平滑。

2.聚类：局外者可以被聚类检测。聚类将类似的值组织成群或“聚类”。直观地，落在聚类集合之外的值被视为局外者

3.计算机和人工检查结合：计算机和人工检查结合：可以通过计算机和人工检查结合的办法来识别局外者。例如，在一种应用中，使用信息理论度量，帮助识别手写体字符数据库中的局外者。度量值反映被判断的字符与已知的符号相比的“差异”程度。局外者模式可能是提供信息的（例如，识别有用的数据例外，如字符“0”或“7”的不同版本）或者是“垃圾”（例如，错误的字符）。其差异程度大于某个阈值的模式输出到一个表中。人可以审查表中的模式，识别真正的垃圾。这比人工地搜索整个数据库快得多。在其后的数据挖掘应用时，垃圾模式将由数据库中清除掉。

4. 回归：可以通过让数据适合一个函数（如回归函数）来平滑数据。线性回归涉及找出适合两个变量的“最佳”直线，使得一个变量能够预测另一个。多线性回归是线性回归的扩展，它涉及多于两个变量，数据要适合一个多维面。使用回归，找出适合数据的数学方程式，能够帮助消除噪音。