描述性数据挖掘的最简单类型是概念描述。概念通常指数据的汇集,如 frequent_buyers,graduate_students 等。作为一种数据挖掘任务,概念描述不是数据的简单枚举。 概念描述产生数据的特征和比较描述。当被描述的概念涉及对象类时,有时也称概念描述为 类描述。 特征提供给定数据汇集的简洁汇总,而概念或类的 比较(也称为 区分)提供两个或多个数据汇集的比较描述。由于概念描述涉及特征和比较,我们将逐一研究这些任务的实现技术。概念描述与数据泛化密切相关。给定存放在数据库中的大量数据,能够以简洁的形式在更一般的(而不是在较低的)抽象层描述数据是很有用的。允许数据集在多个抽象层泛化,便于用户考察数据的一般行为。例如,给定 AllElectronics 数据库,销售经理可能不想考察每个顾客的事务,而愿意观察泛化到高层的数据。如,根据地区按顾客的分组汇总,观察每组顾客的购买频率和顾客的收入。这种多维、多层数据泛化类似于数据仓库中的多维数据分析。