数据挖掘复习内容

Yidadaa

2017/11/02

views

# 数据挖掘复习内容

# 数据挖掘期末复习

# 第一章内容

什么是数据挖掘，数据挖掘与其他学科的联系。
知识发现的流程。数据挖掘是数据发现的核心。
数据挖掘的主要任务。关联规则挖掘、分类或回归、聚类和异常点检测。

# 第二章认识数据

# 相似度计算

计算欧氏距离以及另外一个算法。

# 数据的统计描述

包括数据的中心性描述（中位数、众数）和散度（极值、方差、百分位点）。

# 数据预处理

数据清洗。噪声检测及缺失值处理。
数据集成。冗余分析和相关分析（卡方分析）。

# 数据变换

最小最大归一化。
(X-期望)/标准差

# 第三章数据仓库

# 什么是数据仓库

数据仓库是面向主题的、非易失的、随时间变化的、集成的。

# 多维数据模型

星型模型、雪花模型和事实星座模型。

# 第四章关联规则

# 什么是频繁项集，如何从项集中获取关联规则

数据中支持度大于最小支持度的的项集为频繁项集。

# Apriori算法（重点必考）

题型是从给定事务集合中计算关联规则。

# 第五章分类

监督学习和非监督学习
生成模型和判别模型。
分类和回归的异同。都是监督学习。一个是离散，一个是连续。

# 决策树（重点）

避免过拟合：增加数据量，降低模型复杂度。决策树通过剪枝来避免过拟合。

# KNN（重点）

属于懒惰学习，没有训练过程。
缺点：对K敏感
优点：无需训练

# 其他算法

朴素贝叶斯、SVM、ANN和BP网络。

# 评价指标

准确率，召回率，敏感度，精度，F1

# 第六章聚类

# 什么是聚类

# 聚类的分类及相应算法

基于划分的算法。k-means，k中心
基于密度。DB scan
基于层次。层次聚类
基于网格。

# k-means（重点）

k-means的流程。

# 第七章异常检测

# 什么是异常

# 异常的类型

全局、局部、集体、情景

# LOF