数据挖掘

概念与技术

Data Science
Author

Shitao5

Published

2023-09-01

Modified

2023-09-16

Progress

Learning Progress: Paused. Current progress 18.86%.⏱

Learning Source
  • Han J, Kamber M, Pei J. 数据挖掘:概念与技术[M]. 范明, 孟小峰译. 3 版. 机械工业出版社, 2012.

1 引论

  • 为便于决策,数据仓库中的数据围绕主题(如顾客、商品、供应商和活动)组织。数据存储从历史的角度(如过去的 6 ~ 12 个月)提供信息,并且通常是汇总的。

  • 通常,数据仓库用称作数据立方体(data cube)的多维数据结构建模。其中,每个对应于模式中的一个或一组属性,而每个单元存放某种聚集度量值,如 count 或 sum。数据立方体提供数据的多维视图,并允许预计算和快速访问汇总数据。

  • 通过提供多维数据视图和汇总数据的预计算,数据仓库非常适合联机分析处理。OLAP 操作使用所研究数据的领域背景知识,允许在不同的抽象层提供数据。这些操作适合不同的用户角度。OLAP 操作的例子包括下钻(drill-down)和上卷(roll-up)。

  • 多维数据挖掘(又称探索式多维数据挖掘)以 OLAP 风格在多维空间进行数据挖掘。也就是说,在数据挖掘中,允许在各种粒度进行多维组合探查,因此更有可能发现代表知识的有趣模式。

  • 通常,一个事务包含一个唯一的事务标识号,以及一个组成事务的项(如,交易中购买的商品)的列表。事务数据库可能有一些与之相关联的附加表,包含关于事务的其他信息,如商品描述、关于销售人员或部门等的信息。

  • 数据挖掘是一个动态的、强势快速拓展的领域。简要概述数据挖掘研究的主要问题,可分为五组:挖掘方法、用户交互、有效性与可伸缩性、数据类型的多样性、数据挖掘与社会。

2 认识数据

  • 中列数(midrange)是数据集的最大和最小值的平均值,可用来评估数值数据的中心趋势。

  • 分位数-分位数图(quantile-quantile plot)或 q-q 图对着另一个对应的分位数,绘制一个单变量分布的分位数,用于观察从一个分布到另一个分布是否有漂移。

3 数据预处理

3.1 概述

  • 数据质量涉及许多因素,包括准确性、完整性、一致性、时效性、可信性和可解释性。

  • 数据归约(data reduction)得到数据集的简化表示,它小得多,但能够产生同样(或几乎同样的)分析结果。数据归约策略包括维归约数值归约

  • 对于数据挖掘而言,离散化与概念分层产生是强有力的工具,因为它们使得数据的挖掘可以在多个抽象层上进行。规范化、数据离散化和概念分层产生都是某种形式的数据变换(data transformation)。

3.2 数据清理

  • 使用属性的中心度量(如均值或中位数)填充缺失值,对于正常的(对称的)数据分布而言,可以使用均值,而倾向数据分布应该使用中位数。

  • 箱均值光滑将箱中的每个值都替换为箱中均值;箱中位数光滑将箱中的每个值都替换为箱中位数;箱边界光滑将箱重每个值替换为最近的边界值。

3.3 数据集成

  • 数据挖掘经常需要数据集成——合并来自多个数据存储的数据。小心集成有助于减少结果数据集的冗余和不一致。这有助于提高其后挖掘过程的准确性和速度。

  • 去规范化表(denormalized table)的使用(这样做通常是通过避免连接来改善性能)是数据冗余的另一个来源。

3.4 数据归约

  • 数据归约(data reduction)技术可以用来得到数据集的归约表示,它小得多,但仍接近于保持原始数据的完整性。也就是说,在归约后的数据集上挖掘将更有效,仍然产生相同(或几乎相同)的分析结果。

  • 数据归约策略包括维归约、数量归约和数据压缩:

    • 维归约(dimensionality reduction)减少所考虑的随机变量或属性的个数。维归约方法包括小波变换和主成分分析,它们把原始数据变换或投影到较小的空间。属性自己选择是一种维归约方法,其中不相关、弱相关或冗余的属性或维被检测和删除。

    • 数量归约(numerosity reduction)用替代的、较小的数据表示形式替换原数据。这些技术可以使参数的或非参数的。对于参数方法而言,使用模型估计数据,使得一般只需要存放模型参数,而不是实际数据(离群值可能也要存放)。回归和对数-线性模型就是例子。存放数据归约表示的非参数方法包括直方图、聚类、抽样和数据立方体聚集。

    • 数据压缩(data compression)使用变换,以便得到原数据的归约或“压缩”表示。如果原数据能够从压缩后的数据重构,而不损失信息,则该数据归约称为无损的。如果我们只能近似重构原数据,则该数据归约称为有损的。对于串压缩,有一些无损压缩算法。然而,它们一般只允许有限的数据操作。维归约和数据归约也可以视为某种形式的数据压缩。

  • 有许多其他方法来组织数据归约方法。花费在数据归约上的计算时间不应超过或“抵消”在归约后的数据上挖掘所节省的时间。

  • PCA 可用于有序和无序的属性,并且可以处理稀疏和倾斜数据。多余二维的多维数据可以通过将问题归约为二维问题来处理。主成分可以用作多元回归和聚类分析的输入。与小波变换相比,PCA 能够更好地处理稀疏数据,而小波变换更适合高维数据。

To be continued
  • 数据预处理
Back to top