什么是数据挖掘 什么是数据挖掘技术?10种最有效的数据挖掘技术,你懂几个

编辑:
发布时间: 2021-03-06 00:53:00
分享:

数据挖掘是一个提取隐藏在大量不完整、有噪声、模糊和随机数据中的潜在有用信息和知识的过程,而人们事先并不知道这些信息和知识。数据挖掘的任务是从数据集中发现模式。可以找到的模式有很多,根据功能可以分为两类:预测模式和描述模式。在应用中,往往根据模型的实际效果细分为以下几类:分类、估值、预测、相关性分析、序列、时间序列、描述与可视化等。

数据挖掘涉及的学科和技术很多,分类也很多。根据挖掘任务,可以分为分类或预测模型发现、数据汇总、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等。根据挖掘对象,有关系数据库、面向对象数据库、空互数据库、时态数据库、文本数据源、多媒体数据库、异构数据库、遗产数据库和万维网。按照挖掘方法,大致可以分为机器学习法、统计法、神经网络法和数据库法。机器学习可以细分为归纳学习法、案例学习法、遗传算法等。统计方法可细分为回归分析、判别分析、聚类分析和探索性分析。神经网络方法可细分为:前向神经网络、自组织神经网络等。数据库方法主要是多维数据分析或OLAP方法,以及面向属性的归纳方法。

数据挖掘的技术有很多,根据不同的分类有不同的分类。下面重点介绍一些常用的数据挖掘技术:统计技术、关联规则、基于历史的分析、遗传算法、聚集检测、连接分析、决策树、神经网络、粗糙集、模糊集、回归分析、差异分析、概念描述等。

1、统计技术

数据挖掘涉及到很多科学领域和技术,比如统计技术。利用统计技术挖掘数据集的主要思想是统计方法对给定的数据集假设一个分布或概率模型,然后根据模型采用相应的方法进行挖掘。

2.关联规则

数据关联是数据库中一种重要的可发现知识。如果两个或两个以上变量的值有某种规律性,这就叫做相关性。关联可以分为简单关联、时间序列关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网络。有时候我们不知道数据库中数据的关联函数,即使知道也是不确定的,所以关联分析生成的规则是有可信度的。

3.基于历史的膜生物反应器分析

首先,根据经验知识寻找相似的情况,然后将这些情况的信息应用到当前的例子中。这就是MBR的本质。MBR首先寻找与新记录相似的邻居,然后使用这些邻居对新数据进行分类和估计。使用MBR主要有三个问题:寻找一定的历史数据;决定最有效的表示历史数据的方式;确定距离函数、联合函数和邻居数。

4.遗传算法

优化技术以进化理论为基础,采用遗传组合、遗传变异和自然选择的设计方法。主要思想是:根据优胜劣汰的原则,形成一个由当前组中最合适的规则和这些规则的后代组成的新组。通常,规则的适合度用于评估训练样本集的分类精度。

5.聚集检测

将一组物理或抽象对象组合成由相似对象组成的多个类的过程称为聚类。聚类生成的聚类是一组数据对象,与同一个聚类中的数据对象相似,与其他聚类中的数据对象不同。相异度是根据描述对象的属性值来计算的,距离往往作为度量。

6.连接分析

相关阅读
热门精选
孩子 你的