数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘的替换词,包括数据库中的知识挖掘、知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获,等等。数据挖掘方面更多的国际会议,如PAKDD,PKDD,SIAM-Data Mining,ICDM,DaWaK,SPIE-DM等。......
2023-11-08
1.配置文件
hbase-site.xml:HBase最主要的配置文件。
hbase-env.sh:设置HBase运行所需的工作环境。
backup-masters:列出哪些服务器应启动备用HMaster进程。
regionservers:列出了哪些服务器启动HRegionServer进程。
hbase-policy.xml:PRC服务器对客户端请求进行权限验证时使用的策略配置文件,仅当启用HBase安全管理时才使用。
log4j.properties:HBase所使用的日志模块log4j的配置文件。
Hadoop-metrics2-hbase.properties:该配置文件将HBase集群与Hadoop的Metrics2框架相关联,可用于实时收集HBase集群的各类监控信息。
上述七个HBase配置文件的路径和内容在每个节点上都必须一致。
2.主要配置项
hbase.cluster.distributed:是否为分布式运行模式,默认值为false。
hbase.tmp.dir:HBase节点在本地文件系统中的临时目录,默认值为${java.io.tmpdir}/hbase-${user.name}。
hbase.rootdir:HBase所保存文件的根目录,默认值为${hbase.tmp.dir}/hbase。
hbase.fs.tmp.dir:HBase集群在HDFS文件系统中保存临时数据的中转目录,默认值为/user/${user.name}/hbase-staging。
hbase.local.dir:HBase节点在本地文件系统中用于本地存储的目录,默认值为${hbase.tmp.dir}/local。
hbase.zookeeper.quorum:哪些服务器上运行ZooKeeper进程,默认值为localhost。
hbase.zookeeper.property.dataDir:ZooKeeper用于保存数据的目录,默认值为${hbase.tmp.dir}/zookeeper。
hbase.zookeeper.property.maxClientCnxns:每个ZooKeeper服务器允许接受的客户端并发连接数量,默认值为300。
zookeeper.session.timeout:ZooKeeper会话的超时时间,单位是毫秒,默认值是90000。
hbase.master.port:HMaster进程绑定的端口号,默认值为16000。
hbase.master.info.port:HBase Master的Web页面的端口号,默认值为16010。
hbase.master.wait.on.regionservers.mintostart:HBase集群启动时HMaster在有多少个HRegionServer启动后开始分配任务,默认值为1。(www.chuimin.cn)
hbase.regionserver.port:HRegionServer进程绑定的端口号,默认值为16020。
hbase.regionserver.info.port:HRegionServer的Web页面的端口号,默认值为16030。
hbase.regionserver.handler.count:每台HRegionServer和HMaster上用于侦听响应客户端请求的线程数量,默认值为30。
hbase.ipc.server.callqueue.handler.factor:每台HRegionServer和HMaster上对应于处理线程数的调用等待队列数量因子,范围在0~1之间,默认值为0.1,表示每10个处理线程共享一个调用等待队列。
hbase.hregion.max.filesize:一个HRegion中所有Hfile文件合计大小上限,默认值为10737418240,即10G。
hbase.hregion.majorcompaction:HRegion数据自动进行周期性主压缩的间隔时间,单位是毫秒,默认值为604800000,即7天。
hbase.hregion.majorcompaction.jitter:随机执行周期性主压缩操作的前后时间范围,默认值为0.5。
hbase.hregion.memstore.flush.size:Store中的MemStore达到多大时会存入磁盘生成StoreFile,默认值为134217728,即128M。
hbase.regionserver.global.memstore.size:HRegionServer中所有MemStore合计大小的上限,按照堆内存的百分比计算,默认值为0.4,即上限为堆内存的40%。
hfile.block.cache.size:最多使用堆内存的百分之多少作为StoreFile的块缓存,默认值为0.4,即上限为堆内存的40%。
hbase.balancer.period:HMaster运行HRegion均衡器的周期,单位是毫秒,默认值为300000。
hbase.client.write.buffer:HBase服务器端和客户端写入数据库缓冲区的大小,默认值为2097152,即2M。
hbase.security.authentication:是否启用HBase客户端安全认证,默认值为simple,表示不进行安全认证。
3.配置建议
hbase-site.xml必须配置以下参数:
建议配置以下参数:
hbase-env.sh必须配置以下参数:
4.客户端配置
在客户端解压HBase安装包,并将解压后的lib/子目录和conf/子目录加入客户端的CLASSPATH环境变量中;
客户端的配置比较简单,只需要在conf/hbase-site.xml配置文件中设置好参数hbase.zookeeper.quorum即可,示例如下:
有关大数据挖掘技术及其在医药领域的应用的文章
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘的替换词,包括数据库中的知识挖掘、知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获,等等。数据挖掘方面更多的国际会议,如PAKDD,PKDD,SIAM-Data Mining,ICDM,DaWaK,SPIE-DM等。......
2023-11-08
表6-5HBase集群部署架构示例HBase集群部署的步骤如下:建立ssh免密码访问;部署master;安装HBase;配置HRegionServer;配置备用HMaster;配置ZooKeeper。......
2023-11-08
打开VMware Workstation→点击文件→新建虚拟机。图9-2选择典型(推荐)选择“安装程序光盘映像文件”,选择指定的CentOS系统的.iso文件,点击“下一步〉”。图9-10在CentOS 6中安装VMware Tools重启CentOs 6。图9-11CentOS 6重启输入密码zkpk,登录进系统。图9-12CentOS 6安装完成下面克隆HadoopSlave。图9-14设置克隆虚拟机选项创建完整克隆。图9-16命名虚拟机图9-17正在准备克隆虚拟机图9-18正在克隆虚拟机点击“关闭”按钮后,发现“HadoopSlave”虚拟机已经在左侧的列表栏中。......
2023-11-08
数据挖掘的功能是指数据挖掘通过预测未来趋势及行为,做出前瞻的、基于知识的决策。数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时间序列模式和偏差分析等。关联分析的目的是找出数据库中隐藏的关联网。关联分析发现关联规则,这些规则展示属性值频繁地在给定数据集中一起出现的条件。聚类分析可以建立宏观的概念,发现数据的分布模式以及可能的数据属性之间的相互关系。......
2023-11-08
在HBase Shell提示符下执行help命令可列出所有命令列表。命名空间类命令命名空间是对表的逻辑分组,HBase可以针对命名空间分配资源限额,指定HRegionServer子集,进行安全管理等。大多数配置更改后必须重新启动HBase集群才能生效,与HRegion压缩、拆分相关的参数可以动态更改,更改后在HBase Shell中执行update_all_config命令即可生效。......
2023-11-08
MapReduce编程:编写WordCount类,实现Mapper接口,实现Reducer接口,配置作业,代码测试,打包发布。其中,key为该行在文本中的偏移量,value值为这一行的内容。Map处理将分割好的〈key,value〉对作为map()方法的输入,然后由用户定义的map()方法进行Map处理,生成新的〈key,value〉对。Reduce处理首先,Reduce端接收到来自Map端的数据后,对数据进行排序,如图5-27Reduce端排序结果所示。......
2023-11-08
分类是一种基本的数据分析方式,根据其特点,可将数据对象划分为不同的部分和类型,再进一步分析,能够进一步挖掘事物的本质。分类分析的用途:解释和预报。......
2023-11-08
配置修改之后关闭整个HBase集群再重新启动让其生效。客户端hbase-site.xml中也将hbase.security.authentication设置为simple。Execute:执行权限,可以在指定范围内执行HBase协处理器终端程序。在HBase Shell中可以通过grant命令来进行授权,其语法格式如下:权限回收命令revoke格式和grant命令类似,只是少了第二个表示权限级别的参数,含义是回收该用户在指定范围内的所有权限。......
2023-11-08
相关推荐