数据挖掘
天下维客,你可以修改的网络知识库
数据挖掘
- 英文名称 Data mining
- 也就是 数据库知识发现(knowledge-discovery in databases) (KDD),习惯上指按照一定模式从大量数据中自动搜索数据。数据网挖掘使用统计和模式识别算法实现上述目标。
- 数据挖掘的定义是 “从数据中提取出隐含的特别的,过去未知的,潜在有价值的信息” [1] 也是“一门从大量数据或者数据库中提取有用信息的科学。” [2]. 尽管通常数据挖掘应用于数据分析,但是象人工智能一样,它也是个具有丰富含义的词汇用,用于不同的领域。
- 举一个简单的例子,数据挖掘在零售行业的应用。零售公司跟踪客户的购买情况,发现某个客户购买了大量的真丝衬衣,这时数据挖掘系统就在此客户和真丝衬衣之间建立关联。销售部们就会看到此信息,直接发送真丝衬衣的当前行情给该客户。这样零售商店通过数据挖掘系统就发现了以前未知的关于客户的新信息。
目录 |
应用
通常作为与数据仓库和分析相关的技术,数据挖掘处于他们中间。 然而,有时还会出现十分可笑的应用,“揭示出”并不存在的但看起来却非常振奋人心的模式(特别的因果关系)。这些根本不相关的,令人误入歧途的或者毫无价值得关联在统计学文献里通常被戏称作“数据挖泥”。
下面对数据挖掘的理解是, 数据挖掘意味着扫描存在任何关系的数据,然后就能筛选出感兴趣的模式。(这也叫作"过度匹配模式".) 问题是大量数据集总是碰巧与特定的数据有着“令人激动的关系”。因此一些结论看上去十分值得怀疑。尽管如此,一些探索性数据分析 还是需要在一些应用统计分析中寻找数据,所以有时好的统计方法和数据挖掘的界限并不是很清晰。
更糟糕的危险是发现根本不存在的关联性。投资分析家似乎最容易犯这种错误。在一本叫做顾客的游艇在哪里? 的书中(<a href="/index.php?title=Special:Booksources&isbn=0471119792" class="internal">ISBN 0471119792</a> (1940), Fred Schwed, Jr),写道:“总是有相当数量的可怜人,忙于从上千次的轮盘赌的轮子上寻找可能的重复模式。十分不幸的是,他们通常会找到。”
多数数据挖掘研究关注于发现大量数据集的一个完美的高度详细的模式。在《大忙人的数据挖掘》一书[3]中, 西弗吉尼亚大学和大不列颠哥伦比亚大学研究者讨论了一个交替模式用来发现一个数据集当中两个元素最小的区别,它的目标是发现一个更简单的模式描述相关数据。
与数据挖掘有关的还牵扯到机密问题,例如:一个雇主可以透过访问医疗记录来筛选出那些有糖尿病或者严重心脏病的人,从而意图削减保险支出。不过,这种做法会导致伦理和法律问题。
对政府和商业数据的挖掘可能会涉及到国家安全或者商业机密之类的问题,对保密也是个不小的挑战。[4]
数据挖掘有很多合法的用途,例如一个某处方药在服用该药患者人群的数据库记录中可以发现药物和副作用的关联。因为这种关联可能在1000人中也不会出现一例,这种偶发事件不易被发现。药物学相关的项目就可以减少有药物反应病人的数量,还潜在可能挽救生命。不幸的是存在很大的可能这样的数据库被滥用。
主要地,数据挖掘实现了用其他方法不可能实现的方法来发现信息。但是它必须有个框架,应当在适当的说明下使用。
如果数据是收集自特定的个人,那么就会出现一些涉及保密,法律和伦理的问题。
先验算法是数据挖掘中最基本的算法。
历史
数据挖掘是因为海量有用数据快速增长的产物。考虑到通过计算机进行历史数据分析,1960年代数字方式采集数据已经实现。1980年代关系数据库随着能够适应动态按需分析数据的结构化查询语言(SQL)发展起来。数据仓库开始用来存储大量的数据。 数据挖掘因面临的需要处理的数据库中的海量数据严峻挑战应运而生,对于这些问题它的主要方法是数据统计分析和人工智能搜索技术。
参考
- 人工智能
- 神经网络
- 商务智能
- 商务性能管理
- 数据库
- 数据流挖掘
- 数据仓库
- 决策树
- 描述统计学
- 文件仓库
- 模糊逻辑
- 假设检验
- 线性判断分析
- Logit (关于logistic regression)
- Loyalty card
- 机器学习
- 最近临域 (模式识别)
- 模式识别
- 主成分分析
- 回归分析
- 相关数据挖掘
- 统计
- 文本挖掘
文献
W. Frawley and G. Piatetsky-Shapiro,C. Matheus, 数据库知识发现: 概述,人工智能杂志, Fall 1992, pgs 213-228.
Jaiwei Han, Micheline Kamber, 数据挖掘:概念和技术 (2001), <a href="/index.php?title=Special:Booksources&isbn=1558604898" class="internal">ISBN 1-55860-489-8</a>
D. Hand, H. Mannila, P. Smyth: 数据挖掘原理. 麻省理工出版社, 剑桥, MA, 2001. <a href="/index.php?title=Special:Booksources&isbn=026208290X" class="internal">ISBN 0-262-08290-X</a>
Ruby Kennedy et al., 通过模式识别解决数据挖掘问题 (1998), <a href="/index.php?title=Special:Booksources&isbn=0130950831" class="internal">ISBN 0-13-095083-1</a>
T. Menzies, Y. Hu, Data Mining For Very Busy People. IEEE Computer,2003年10月,18-25页.
K. A. Taipale, 数据挖掘和局部安全: Connecting the Dots to Make Sense of Data, 科学和技术策略高级研究中心. 5 Colum. Sci. & Tech. L. Rev. 2 (2003年12月).
O. Maimon and M. Last, 知识发现和数据挖掘-模糊信息网络(IFN)方法学, Kluwer学术出版社, 计算机巨著系列, 2000.
Hari Mailvaganam, 数据挖掘的未来, http://www.dwreview.com/ (2004年12月)
Sholom Weiss, Nitin Indurkhya, 数据挖掘预言 (1998), <a href="/index.php?title=Special:Booksources&isbn=1558604030" class="internal">ISBN 1-55860-403-0</a>
Ian Witten, Eibe Frank, 数据挖掘:机器学习工具实践和技术的Java实现 (2000), <a href="/index.php?title=Special:Booksources&isbn=1558605525" class="internal">ISBN 1-55860-552-5</a>
外部链接
- SearchCRM.com Original daily breaking news, white papers, expert advice, webcasts, product reviews and more on data mining.
- 数据挖掘简介(TwoCrows.com)
- Comprehensive data mining white papers and tutorials (thearling.com)
- SQLServerDataMining SQL Server 2005数据挖掘相关信息和交互式演示
- CRM Today-数据挖掘 数据挖掘白页,论文,演示和学术论文
- Data Mining whitepapers, webcasts and case studies
- KDnuggets 数据挖掘,知识发现,普通挖掘,Web挖掘目录
- 数据挖掘 Siebel公司的软件
- Kmining 数据挖掘和KDD科学会议列表
- 数据挖掘 向导
- 数据挖掘和数据仓库 数据挖掘指导
- Weka Java语言版开放源代码数据挖掘软件
- 数据流挖掘书目 数据流挖掘的相关内容,技术和应用
- Orange C++和Python语言编写的开放源代码数据挖掘软件
商业解决方案
(按照字母顺序排列)


