【摘要】:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘的替换词,包括数据库中的知识挖掘、知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获,等等。数据挖掘方面更多的国际会议,如PAKDD,PKDD,SIAM-Data Mining,ICDM,DaWaK,SPIE-DM等。
1.数据特点
数据结构复杂,包括图像、复杂语义关系、文本等,特点是数据处理技术复杂;小样本数据的高维、模糊、语义复杂;数据挖掘时数据量变化导致技术变化。
大数据的共性,包括数据结构复杂、语义关系复杂、系统复杂、信息(知识)含量丰富,巨大价值(社会价值、商业价值)、需要专业数据分析。
技术要求:能够进行深层分析算法;有针对性,解决特定实际问题算法;降低算法时空复杂度;智能性高,自适应能力强。
为什么要数据挖掘?(1)数据的爆炸性增长:从TB到PB;数据的收集和数据的可获得性;自动数据收集工具、数据库系统、WEB、计算机化的社会;丰富数据的来源。(2)商业:WEB、电子商务、交易数据、股市。(3)科学:遥感、生物信息学、科学模拟。(4)社会及每个人:新闻、数码相机、YouTube;我们被数据所淹没,但却渴望知识。(5)“需要是发明之母”——数据挖掘:海量数据的自动分析技术。
2.数据挖掘的定义
商业企业角度的定义。按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的、先进有效的方法。两个要点:数据源是在商业企业运作过程中产生的;分析的目的是企业获取最大利润,进行最佳运作决策,提供真正有价值的信息。(www.chuimin.cn)
技术角度的定义。数据挖掘(DM:Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。在这个定义中,数据源必须是真实的、大量的、含噪声的。发现的是用户感兴趣的知识。
什么是数据挖掘?数据挖掘是(从数据中发现知识)从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。数据挖掘的替换词,包括数据库中的知识挖掘(KDD)、知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获,等等。

图1-8 数据挖掘过程
3.数据挖掘的会议
1989 IJCAI会议:数据库中的知识发现讨论专题;Knowledge Discovery in Databases(G.Piatetsky-Shapiro,1991);1991—1994 KDD讨论专题;Advances in Knowledge Discovery and Data Mining(U.Fayyad,1996);1995—1998 KDD国际会议(KDD'95—98);Journal of Data Mining and Knowledge Discovery(1997);1998 ACM SIGKDD,SIGKDD'1999—2002会议,以及SIGKDD Explorations。数据挖掘方面更多的国际会议,如PAKDD,PKDD,SIAM-Data Mining,(IEEE)ICDM,DaWaK,SPIE-DM等。
相关推荐