如何运行Spark 光环大数据高薪就业培训机构
光环大数据是专注大数据、人工智能垂直领域高薪就业培训机构,多年来专注大数据人才培养,携17年IT培训经验,与中关村软件园共同建立国家大数据人才培养基地,并与全球知名大厂商cloudera战略合作培养中国大数据高级人才,专注为大学生及在职人员提供专业师资平台及培训服务,助力他们高薪名企就业。
如何运行Spark
当你在本地机器安装了Spark或使用了基于云端的Spark后,有几种不同的方式可以连接到Spark引擎。
下表展示了不同的Spark运行模式所需的MasterURL参数。
如何与Spark交互
Spark启动并运行后,可以用Sparkshell连接到Spark引擎进行交互式数据分析。Sparkshell支持Scala和Python两种语言。Java不支持交互式的Shell,因此这一功能暂未在Java语言中实现。
可以用spark-shell.cmd和pyspark.cmd命令分别运行Scala版本和Python版本的SparkShell。
Spark网页控制台
不论Spark运行在哪一种模式下,都可以通过访问Spark网页控制台查看Spark的作业结果和其他的统计数据,控制台的URL地址如下:
http://localhost:4040
Spark控制台如下图3所示,包括Stages,Storage,Environment和Executors四个标签页
(点击查看大图)
图3.Spark网页控制台
共享变量
Spark提供两种类型的共享变量可以提升集群环境中的Spark程序运行效率。分别是广播变量和累加器。
广播变量:广播变量可以在每台机器上缓存只读变量而不需要为各个任务发送该变量的拷贝。他们可以让大的输入数据集的集群拷贝中的节点更加高效。
下面的代码片段展示了如何使用广播变量。
//
//BroadcastVariables
//
valbroadcastVar=sc.broadcast(Array(1,2,3))
broadcastVar.value
累加器:只有在使用相关操作时才会添加累加器,因此它可以很好地支持并行。累加器可用于实现计数(就像在MapReduce中那样)或求和。可以用add方法将运行在集群上的任务添加到一个累加器变量中。不过这些任务无法读取变量的值。只有驱动程序才能够读取累加器的值。
下面的代码片段展示了如何使用累加器共享变量:
//
//Accumulators
//
valaccum=sc.accumulator(0,"MyAccumulator")
sc.parallelize(Array(1,2,3,4)).foreach(x=>accum+=x)
accum.value
大数据+时代,IT高薪就业培训,就选光环大数据!
大数据培训、人工智能培训、Python培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请专业的大数据领域知名讲师,确保教学的整体质量与教学水准。讲师团及时掌握时代潮流技术,将前沿技能融入教学中,确保学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式,指导学生更快的掌握技能知识,成就上万个高薪就业学子。 更多问题咨询,欢迎点击------>>>>在线客服!