# 数据挖掘复习内容
# 数据挖掘期末复习
# 第一章内容
- 什么是数据挖掘,数据挖掘与其他学科的联系。
- 知识发现的流程。数据挖掘是数据发现的核心。
- 数据挖掘的主要任务。关联规则挖掘、分类或回归、聚类和异常点检测。
# 第二章 认识数据
# 相似度计算
计算欧氏距离以及另外一个算法。
# 数据的统计描述
包括数据的中心性描述(中位数、众数)和散度(极值、方差、百分位点)。
# 数据预处理
- 数据清洗。噪声检测及缺失值处理。
- 数据集成。冗余分析和相关分析(卡方分析)。
# 数据变换
- 最小最大归一化。
- (X-期望)/标准差
# 第三章 数据仓库
# 什么是数据仓库
数据仓库是面向主题的、非易失的、随时间变化的、集成的。
# 多维数据模型
星型模型、雪花模型和事实星座模型。
# 第四章 关联规则
# 什么是频繁项集,如何从项集中获取关联规则
数据中支持度大于最小支持度的的项集为频繁项集。
# Apriori算法(重点必考)
题型是从给定事务集合中计算关联规则。
# 第五章 分类
- 监督学习和非监督学习
- 生成模型和判别模型。
- 分类和回归的异同。都是监督学习。一个是离散,一个是连续。
# 决策树(重点)
避免过拟合:增加数据量,降低模型复杂度。 决策树通过剪枝来避免过拟合。
# KNN(重点)
属于懒惰学习,没有训练过程。
缺点:对K敏感
优点:无需训练
# 其他算法
朴素贝叶斯、SVM、ANN和BP网络。
# 评价指标
准确率,召回率,敏感度,精度,F1
# 第六章 聚类
# 什么是聚类
# 聚类的分类及相应算法
- 基于划分的算法。k-means,k中心
- 基于密度。DB scan
- 基于层次。层次聚类
- 基于网格。
# k-means(重点)
k-means的流程。
# 第七章 异常检测
# 什么是异常
# 异常的类型
全局、局部、集体、情景