数据挖掘期末复习
第一章内容
- 什么是数据挖掘,数据挖掘与其他学科的联系。
- 知识发现的流程。数据挖掘是数据发现的核心。
- 数据挖掘的主要任务。关联规则挖掘、分类或回归、聚类和异常点检测。
第二章 认识数据
相似度计算
计算欧氏距离以及另外一个算法。
数据的统计描述
包括数据的中心性描述(中位数、众数)和散度(极值、方差、百分位点)。
数据预处理
- 数据清洗。噪声检测及缺失值处理。
- 数据集成。冗余分析和相关分析(卡方分析)。
数据变换
- 最小最大归一化。
- (X-期望)/标准差
第三章 数据仓库
什么是数据仓库
数据仓库是面向主题的、非易失的、随时间变化的、集成的。
多维数据模型
星型模型、雪花模型和事实星座模型。
第四章 关联规则
什么是频繁项集,如何从项集中获取关联规则
数据中支持度大于最小支持度的的项集为频繁项集。
Apriori算法(重点必考)
题型是从给定事务集合中计算关联规则。
第五章 分类
- 监督学习和非监督学习
- 生成模型和判别模型。
- 分类和回归的异同。都是监督学习。一个是离散,一个是连续。
决策树(重点)
避免过拟合:增加数据量,降低模型复杂度。 决策树通过剪枝来避免过拟合。
KNN(重点)
属于懒惰学习,没有训练过程。
缺点:对K敏感
优点:无需训练
其他算法
朴素贝叶斯、SVM、ANN和BP网络。
评价指标
准确率,召回率,敏感度,精度,F1
第六章 聚类
什么是聚类
聚类的分类及相应算法
- 基于划分的算法。k-means,k中心
- 基于密度。DB scan
- 基于层次。层次聚类
- 基于网格。
k-means(重点)
k-means的流程。
第七章 异常检测
什么是异常
异常的类型
全局、局部、集体、情景