光环大数据storm培训使用Storm实现实时大数据分析

编辑：光环大数据来源: 互联网时间: 2017-12-21 17:29 阅读: 次大中小

　　光环大数据就业培训机构认为，当今世界，公司的日常运营经常会生成TB级别的数据。数据来源囊括了互联网装置可以捕获的任何类型数据，网站、社交媒体、交易型商业数据以及其它商业环境中创建的数据。考虑到数据的生成量，实时处理成为了许多机构需要面对的首要挑战。我们经常用的一个非常有效的开源实时计算工具就是Storm——Twitter开发，通常被比作“实时的Hadoop”。然而Storm远比Hadoop来的简单，因为用它处理大数据不会带来新老技术的交替。

ShruthiKumar、SiddharthPatankar共同效力于Infosys，分别从事技术分析和研发工作。本文详述了Storm的使用方法，例子中的项目名称为“超速报警系统（SpeedingAlertSystem）”。我们想实现的功能是：实时分析过往车辆的数据，一旦车辆数据超过预设的临界值——便触发一个trigger并把相关的数据存入数据库。

Storm

对比Hadoop的批处理，Storm是个实时的、分布式以及具备高容错的计算系统。同Hadoop一样Storm也可以处理大批量的数据，然而Storm在保证高可靠性的前提下还可以让处理进行的更加实时；也就是说，所有的信息都会被处理。Storm同样还具备容错和分布计算这些特性，这就让Storm可以扩展到不同的机器上进行大批量的数据处理。他同样还有以下的这些特性：

易于扩展。对于扩展，你只需要添加机器和改变对应的topology（拓扑）设置。Storm使用HadoopZookeeper进行集群协调，这样可以充分的保证大型集群的良好运行。

每条信息的处理都可以得到保证。

Storm集群管理简易。

Storm的容错机能：一旦topology递交，Storm会一直运行它直到topology被废除或者被关闭。而在执行中出现错误时，也会由Storm重新分配任务。

尽管通常使用Java，Storm中的topology可以用任何语言设计。

当然为了更好的理解文章，你首先需要安装和设置Storm。需要通过以下几个简单的步骤：

从Storm官方下载Storm安装文件

将bin/directory解压到你的PATH上，并保证bin/storm脚本是可执行的。

Storm组件

Storm集群主要由一个主节点和一群工作节点（workernode）组成，通过Zookeeper进行协调。

主节点：

主节点通常运行一个后台程序——Nimbus，用于响应分布在集群中的节点，分配任务和监测故障。这个很类似于Hadoop中的JobTracker。

工作节点：

工作节点同样会运行一个后台程序——Supervisor，用于收听工作指派并基于要求运行工作进程。每个工作节点都是topology中一个子集的实现。而Nimbus和Supervisor之间的协调则通过Zookeeper系统或者集群。

Zookeeper

Zookeeper是完成Supervisor和Nimbus之间协调的服务。而应用程序实现实时的逻辑则被封装进Storm中的“topology”。topology则是一组由Spouts（数据源）和Bolts（数据操作）通过StreamGroupings进行连接的图。下面对出现的术语进行更深刻的解析。

Spout：

简而言之，Spout从来源处读取数据并放入topology。Spout分成可靠和不可靠两种；当Storm接收失败时，可靠的Spout会对tuple（元组，数据项组成的列表）进行重发；而不可靠的Spout不会考虑接收成功与否只发射一次。而Spout中最主要的方法就是nextTuple（），该方法会发射一个新的tuple到topology，如果没有新tuple发射则会简单的返回。

Bolt：

Topology中所有的处理都由Bolt完成。Bolt可以完成任何事，比如：连接的过滤、聚合、访问文件/数据库、等等。Bolt从Spout中接收数据并进行处理，如果遇到复杂流的处理也可能将tuple发送给另一个Bolt进行处理。而Bolt中最重要的方法是execute（），以新的tuple作为参数接收。不管是Spout还是Bolt，如果将tuple发射成多个流，这些流都可以通过declareStream（）来声明。

StreamGroupings：

StreamGrouping定义了一个流在Bolt任务间该如何被切分。这里有Storm提供的6个StreamGrouping类型：

1.随机分组（Shufflegrouping）：随机分发tuple到Bolt的任务，保证每个任务获得相等数量的tuple。

2.字段分组（Fieldsgrouping）：根据指定字段分割数据流，并分组。例如，根据“user-id”字段，相同“user-id”的元组总是分发到同一个任务，不同“user-id”的元组可能分发到不同的任务。

3.全部分组（Allgrouping）：tuple被复制到bolt的所有任务。这种类型需要谨慎使用。

4.全局分组（Globalgrouping）：全部流都分配到bolt的同一个任务。明确地说，是分配给ID最小的那个task。

5.无分组（Nonegrouping）：你不需要关心流是如何分组。目前，无分组等效于随机分组。但最终，Storm将把无分组的Bolts放到Bolts或Spouts订阅它们的同一线程去执行（如果可能）。

6.直接分组（Directgrouping）：这是一个特别的分组类型。元组生产者决定tuple由哪个元组处理者任务接收。

当然还可以实现CustomStreamGroupimg接口来定制自己需要的分组。

项目实施

当下情况我们需要给Spout和Bolt设计一种能够处理大量数据（日志文件）的topology，当一个特定数据值超过预设的临界值时促发警报。使用Storm的topology，逐行读入日志文件并且监视输入数据。在Storm组件方面，Spout负责读入输入数据。它不仅从现有的文件中读入数据，同时还监视着新文件。文件一旦被修改Spout会读入新的版本并且覆盖之前的tuple（可以被Bolt读入的格式），将tuple发射给Bolt进行临界分析，这样就可以发现所有可能超临界的记录。

大数据时代，storm培训，就选光环大数据！

大数据培训、人工智能培训、Python培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训，就选光环大数据！光环大数据，聘请专业的大数据领域知名讲师，确保教学的整体质量与教学水准。讲师团及时掌握时代潮流技术，将前沿技能融入教学中，确保学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式，指导学生更快的掌握技能知识，成就上万个高薪就业学子。更多问题咨询，欢迎点击------>>>>在线客服！

当前位置

光环大数据storm培训使用Storm实现实时大数据分析

你可能也喜欢这些

在线客服咨询

热点阅读

网友最爱

在线客服咨询

当前位置

光环大数据storm培训 使用Storm实现实时大数据分析

你可能也喜欢这些

在线客服咨询

热点阅读

网友最爱

在线客服咨询

光环大数据storm培训使用Storm实现实时大数据分析