大数据挖掘是什么?_2

  • 时间:
  • 浏览:0
  • 来源:佳苑鑫源网络科技

感谢大家参与这个关于大数据挖掘是什么?的问题集合。作为一个对此领域有一定了解的人,我将以客观和全面的方式回答每个问题,并分享一些相关的研究成果和学术观点。

文章目录列表:

大数据挖掘是什么?

2.什么是数据挖掘,简述其作用和应用。

?数据挖掘(DataMining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

?数据挖掘对象

?根据信息存储格式,北大青鸟昌平计算机学院认为用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及Internet等。

?数据挖掘流程

?定义问题:清晰地定义出业务问题,确定数据挖掘的目的。

?数据准备:数据准备包括:选择数据_在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;数据预处理_进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。

?数据挖掘:根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘。

?结果分析:对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。

?数据挖掘分类

?直接数据挖掘:目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。

?间接数据挖掘:目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系。

?数据挖掘的方法

?神经网络方法

?神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注

?遗传算法

?遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。

?决策树方法

?决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。

什么是数据挖掘,简述其作用和应用。

数据挖掘(Data Mining)的定义是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。

数据挖掘能做以下七种不同事情:

· 分类 (Classification)

· 估计(Estimation)

· 预测(Prediction)

· 相关性分组或关联规则(Affinity grouping or association rules)

· 聚类(Clustering)

· 描述和可视化(Description and isualization)

· 复杂数据类型挖掘(Text, Web ,图形图像,视 ,音 等)

数据挖掘(Data Mining),就是从存放在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。 1)数据挖掘能做以下七种不同事情(分析方法):  数据挖掘· 分类 (Classification) · 估值(Estimation) · 预言(Prediction) · 相关性分组或关联规则(Affinity grouping or association rules) · 聚集(Clustering) · 描述和可视化(Description and isualization) · 复杂数据类型挖掘(Text, Web ,图形图像,视 ,音 等) 2)数据挖掘分类 以上七种数据挖掘的分析方法可以分为两类:直接数据挖掘;间接数据挖掘 · 直接数据挖掘 目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。 · 间接数据挖掘 目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系 。 · 分类、估值、预言属于直接数据挖掘;后三种属于间接数据挖掘 3)各种分析方法的简介 · 分类 (Classification) 首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。 例子: a. 申请者,分类为低、中、高风险 b. 故障诊断:中国宝钢集团与上海天律信息技术有限公司合作,采用数据挖掘技术对钢材生产的全流程进行质量监控和分析,构建故障地图,实时分析产品出现瑕疵的原因,有效提高了产品的优良率。 注意: 类的个数是确定的,预先定义好的 · 估值(Estimation) 估值与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类 数据挖掘的类别是确定数目的,估值的量是不确定的。 例子: a. 根据购买模式,估计一个家庭的孩子个数 b. 根据购买模式,估计一个家庭的收入 c. 估计real estate的价值 一般来说,估值可以作为分类的前一步工作。给定一些输入数据,通过估值,得到未知的连续变量的值,然后,根据预先设定的阈值,进行分类。例如:银行对家庭贷款业务,运用估值,给各个客户记分(Score 0~1)。然后,根据阈值,将贷款级别分类。 · 预言(Prediction) 通常,预言是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用于对未知变量的预言。从这种意义上说,预言其实没有必要分为一个单独的类。预言其目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是多少。 例子: 海南航空引入 的数据挖掘工具马克威分析系统,分析客流、燃油等变化趋势,以航线收益为主题进行数据挖掘,制定精细的销售策略,有效提高了企业收益。 · 相关性分组或关联规则(Affinity grouping or association rules) 决定哪些事情将一起发生。 例子: a. 超市中客户在购买A的同时,经常会购买B,即A=> B(关联规则) b. 客户在购买A后,隔一段时间,会购买B (序列分析) · 聚集(Clustering) 聚集是对记录分组,把相似的记录在一个聚集里。聚集和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。 例子: a. 一些特定症状的聚集可能预示了一个特定的疾病 b. 租VCD类型不相似的客户聚集,可能暗示成员属于不同的亚文化群 聚集通常作为数据挖掘的 步。例如,"哪一种类的促销对客户响应最好?",对于这一 类问题,首先对整个客户做聚集,将客户分组在各自的聚集里,然后对每个不同的聚集,回答问题,可能效果更好。 c. 中国移动采用先进的数据挖掘工具马克威分析系统,对用户wap上网的行为进行聚类分析,通过客户分群,进行 营销。 · 描述和可视化(Des cription and isualization) 来源:网界网论坛 是对数据挖掘结果的表示方式。

好了,今天关于“大数据挖掘是什么?”的话题就讲到这里了。希望大家能够对“大数据挖掘是什么?”有更深入的认识,并且从我的回答中得到一些帮助。

猜你喜欢

网络收音机的分类

2025-01-28 @ 佳苑鑫源网络科技

随着科技的发展,网络收音机的分类的今日更新也在不断地推陈出新。今天,我将为大家详细介绍它的今日更新,让我们一起了解它的最新技术。文章目录列表:网络收音机的分类网络收音机有很多,

不小心格式化了硬盘怎么恢复数据啊-_1

2025-01-21 @ 佳苑鑫源网络科技

大家好,今天我将为大家详细介绍不小心格式化了硬盘怎么恢复数据啊?的问题。为了更好地呈现这个问题,我将相关资料进行了整理,现在就让我们一起来看看吧。文章目录列表:不小心格式化了硬

魔镜可以查到京东的数据吗-

2025-01-11 @ 佳苑鑫源网络科技

好久不见了各位,今天我想跟大家探讨一下关于“魔镜可以查到京东的数据吗?”的问题。如果你还不了解这方面的内容,那么这篇文章就是为你准备的,请跟我一起来探索一下。文章目录列表:魔镜

大数据挖掘是什么?_2

2025-01-06 @ 佳苑鑫源网络科技

感谢大家参与这个关于大数据挖掘是什么?的问题集合。作为一个对此领域有一定了解的人,我将以客观和全面的方式回答每个问题,并分享一些相关的研究成果和学术观点。文章目录列表:大数据挖

数据分析基础—6.1数据展现

2025-01-01 @ 佳苑鑫源网络科技

大家好,今天我来和大家聊一聊关于数据分析基础—6.1数据展现的问题。在接下来的内容中,我会将我所了解的信息进行归纳整理,并与大家分享,让我们一起来看看吧。文章目录列表:数据分析