# 数据挖掘复习内容

# 数据挖掘期末复习

# 第一章内容

  1. 什么是数据挖掘,数据挖掘与其他学科的联系。
  2. 知识发现的流程。数据挖掘是数据发现的核心。
  3. 数据挖掘的主要任务。关联规则挖掘、分类或回归、聚类和异常点检测。

# 第二章 认识数据

# 相似度计算

计算欧氏距离以及另外一个算法。

# 数据的统计描述

包括数据的中心性描述(中位数、众数)和散度(极值、方差、百分位点)。

# 数据预处理

  1. 数据清洗。噪声检测及缺失值处理。
  2. 数据集成。冗余分析和相关分析(卡方分析)。

# 数据变换

  1. 最小最大归一化。
  2. (X-期望)/标准差

# 第三章 数据仓库

# 什么是数据仓库

数据仓库是面向主题的、非易失的、随时间变化的、集成的。

# 多维数据模型

星型模型、雪花模型和事实星座模型。

# 第四章 关联规则

# 什么是频繁项集,如何从项集中获取关联规则

数据中支持度大于最小支持度的的项集为频繁项集。

# Apriori算法(重点必考)

题型是从给定事务集合中计算关联规则。

# 第五章 分类

  1. 监督学习和非监督学习
  2. 生成模型和判别模型。
  3. 分类和回归的异同。都是监督学习。一个是离散,一个是连续。

# 决策树(重点)

避免过拟合:增加数据量,降低模型复杂度。 决策树通过剪枝来避免过拟合。

# KNN(重点)

属于懒惰学习,没有训练过程。
缺点:对K敏感
优点:无需训练

# 其他算法

朴素贝叶斯、SVM、ANN和BP网络。

# 评价指标

准确率,召回率,敏感度,精度,F1

# 第六章 聚类

# 什么是聚类

# 聚类的分类及相应算法

  1. 基于划分的算法。k-means,k中心
  2. 基于密度。DB scan
  3. 基于层次。层次聚类
  4. 基于网格。

# k-means(重点)

k-means的流程。

# 第七章 异常检测

# 什么是异常

# 异常的类型

全局、局部、集体、情景

# LOF