首页 理论教育大数据挖掘技术中的Flume及其应用

大数据挖掘技术中的Flume及其应用

【摘要】:在数据处理方面:Flume对数据进行简单处理,并写到各种数据接收方处。为了保证配置数据的一致性,Flume引入了ZooKeeper,用于保存系统配置的数据。同时,在配置数据发生变化时,ZooKeeper可以通知Flume Master节点。Flume Master间使用gossip协议同步数据。Flume-ng取消了集中管理配置的Master和Zookeeper,变为一个纯粹的传输工具。在Flume-og中,读入线程同样做写出工作。如果写出慢的话,它将阻塞Flume接收数据的能力。

Flume是Cloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统。官网:http://flume.apache.org/。

数据处理方面:Flume对数据进行简单处理,并写到各种数据接收方处。它提供了从console(控制台)、RPC(Thrift-RPC)、text(文件)、tail(UNIX tail)、syslog(syslog日志系统,支持TCP和UDP等两种模式)、exec(命令执行)等数据源上收集数据的能力。

工作方式上:Flume-og采用了多Master的形式。为了保证配置数据的一致性,Flume引入了ZooKeeper,用于保存系统配置的数据。ZooKeeper本身可保证配置数据的一致性和高可用。同时,在配置数据发生变化时,ZooKeeper可以通知Flume Master节点。Flume Master间使用gossip协议同步数据。Flume-ng取消了集中管理配置的Master和Zookeeper,变为一个纯粹的传输工具。Flume-ng还有一个不同点是读入数据和写出数据现在由不同的工作线程处理(称为Runner)。在Flume-og中,读入线程同样做写出工作(除了故障重试)。如果写出慢的话(不是完全失败),它将阻塞Flume接收数据的能力。这种异步的设计使读入线程可以顺畅的工作而无须关注下游的任何问题。(www.chuimin.cn)

Flume特征:Flume可以高效率地将多个网站服务器中收集的日志信息存入HDFS/HBase中;使用Flume,我们可以将从多个服务器中获取的数据迅速地移交给Hadoop;除了日志信息,Flume同时也可以用来接入收集规模宏大的社交网络节点事件数据,比如Facebook、Twitter、电商网站如亚马逊等;支持各种接入资源数据的类型以及输出数据类型;支持多路径流量、多管道接入流量、多管道输出流量、上下文路由等。