数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘的替换词,包括数据库中的知识挖掘、知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获,等等。数据挖掘方面更多的国际会议,如PAKDD,PKDD,SIAM-Data Mining,ICDM,DaWaK,SPIE-DM等。......
2025-09-30
1.交互模式
在HBase安装目录的bin子目录下执行hbase shell命令即可进入HBase Shell交互模式进行数据库操作。
在HBase Shell提示符下执行help命令可列出所有命令列表。
执行help'〈command〉'可显示针对某条命令的帮助信息,注意〈command〉前后要加单引号或双引号。
(1)DDL命令
create:创建一张新表。
list:列出名称匹配的表。
exists:查看某张表是否存在。
describe:显示某张表的定义,也可以使用简写命令desc。
disable:停用某张表。表被停用后则无法再对其进行增删改和查询等操作,在对表执行alter命令或drop命令之前,必须先执行disable命令停用。
enable:启用某张被disable命令停用的表。表被启用后即可恢复正常操作。
alter:可在某张表中增加、修改、删除列族或者更改表的属性定义。
drop:删除某张表。在删除前必须先执行disable命令停用该表。
(2)DML命令
put:向某张表里的指定单元插入数据。通过行键和列名来指定一个单元。
scan:查询某张表中满足条件的数据。可以在行、列、时间戳等多个维度上设定查询条件。
get:获取表中给定行符合条件的数据。
count:查询某张表中的行数,默认时每1000行计一次数。
delete:删除某张表中指定单元的数据,通过表名、行键和列名指定一个单元,还可以加上时间戳。
(3)命名空间类命令(https://www.chuimin.cn)
命名空间是对表的逻辑分组,HBase可以针对命名空间分配资源限额,指定HRegionServer子集,进行安全管理等。HBase有两个默认的命名空间,即
hbase:系统命名空间,用于保存HBase的内部表。
Default:HBase的默认命名空间。如果一张表没有指定命名空间时,则自动属于default命名空间。
create_namespace:创建一个命名空间。
alter_namespace:修改某个命名空间的定义。
describe_namespace:显示命名空间的定义。
list_namespace:不加选项时列出所有的命名空间,也可以加上带有通配符的正则表达式选项。
list_namespace_tables:列出某个命名空间中的所有表。
drop_namespace:删除某个命名空间。
(4)其他命令
配置类命令:对HBase集群参数配置值进行动态更新。
大多数配置更改后必须重新启动HBase集群才能生效,与HRegion压缩、拆分相关的参数可以动态更改,更改后在HBase Shell中执行update_all_config命令即可生效。
通过help命令可以查看每个命令的作用和使用方法。
2.非交互模式
HBase Shell还可以以非交互方式运行,加上-n或者--noninteractive选项即可进入非交互模式,所执行命令可以通过输入重定向获取,例如:
[root@client bin]echo"list_namespace_tables'default'"|./hbase shell-n
HBase命令也可以直接以脚本文件作为其命令行参数来执行,例如:
[root@client bin]./hbase shell sample_cmd.txt
相关文章
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘的替换词,包括数据库中的知识挖掘、知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获,等等。数据挖掘方面更多的国际会议,如PAKDD,PKDD,SIAM-Data Mining,ICDM,DaWaK,SPIE-DM等。......
2025-09-30
MapReduce编程:编写WordCount类,实现Mapper接口,实现Reducer接口,配置作业,代码测试,打包发布。其中,key为该行在文本中的偏移量,value值为这一行的内容。Map处理将分割好的〈key,value〉对作为map()方法的输入,然后由用户定义的map()方法进行Map处理,生成新的〈key,value〉对。Reduce处理首先,Reduce端接收到来自Map端的数据后,对数据进行排序,如图5-27Reduce端排序结果所示。......
2025-09-30
医疗数据类型的多样化,包括数值型数据、类别型数据、图像、文字、信号、语音、视频。高科技的医学检查设备每天都会产生数千兆字节数据。数学特征不显著。数据归属权问题、数据安全问题、法律诉讼问题等。图1-6医疗数据可及性医学数据类型及特点主要包括多系统多类型、数据量大、增量迅速、结构复杂。绝大多数的医疗数据是处于归档状态,检索是十分复杂的。缺乏数据标准,导致无法统一。......
2025-09-30
,n),则3.贝叶斯定理贝叶斯,在《An Essay towards solving a Problem in the Doctrine of Chances》中给出了贝叶斯定理。其基本求解公式:贝叶斯公式:P(B|A)是根据A判断其属于类别B的概率,称为后验概率。......
2025-09-30
数据挖掘的功能是指数据挖掘通过预测未来趋势及行为,做出前瞻的、基于知识的决策。数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时间序列模式和偏差分析等。关联分析的目的是找出数据库中隐藏的关联网。关联分析发现关联规则,这些规则展示属性值频繁地在给定数据集中一起出现的条件。聚类分析可以建立宏观的概念,发现数据的分布模式以及可能的数据属性之间的相互关系。......
2025-09-30
机器学习算法从数据中自动分析获得规律,并利用规律对未知数据进行预测。数据挖掘与传统联机分析处理OLAP不同,对大数据的深度分析主要基于大规模的机器学习技术。图1-11数据挖掘与机器学习......
2025-09-30
药品安全事件与人们的身体健康密切相关,大众对此关注度高,容易产生消极的非理性情绪。有报告指出,近90%的药品安全舆情事件均未取得令人满意的结果。Hadoop技术的飞速发展,提高了对大量数据进行处理的效率。基于Hadoop的朴素贝叶斯分类。本书通过其构造基于Hadoop的药品安全舆情话题跟踪模型与算法,完成对药品安全舆情信息的跟踪。......
2025-09-30
关联规则是寻找在同一个事件中出现的不同项的相关性。关联分析即利用关联规则进行数据挖掘。关联规则挖掘问题的描述:项目集,设I={i1,i2,…关联规则挖掘的目标,给定一个事务集合T,关联规则挖掘即找出T中所有满足支持度和置信度分别高于一个用户指定的最小支持度和最小置信度的关联规则。......
2025-09-30
相关推荐