Spark应用示例 光环大数据培训
光环大数据是专注大数据、人工智能垂直领域高薪就业培训机构,多年来专注大数据人才培养,携17年IT培训经验,与中关村软件园共同建立国家大数据人才培养基地,并与全球知名大厂商cloudera战略合作培养中国大数据高级人才,专注为大学生及在职人员提供专业师资平台及培训服务,助力他们高薪名企就业。
Spark应用示例
本篇文章中所涉及的示例应用是一个简单的字数统计应用。这与学习用Hadoop进行大数据处理时的示例应用相同。我们将在一个文本文件上执行一些数据分析查询。本示例中的文本文件和数据集都很小,不过无须修改任何代码,示例中所用到的Spark查询同样可以用到大容量数据集之上。
为了让讨论尽量简单,我们将使用SparkScalaShell。
首先让我们看一下如何在你自己的电脑上安装Spark。
前提条件:
为了让Spark能够在本机正常工作,你需要安装Java开发工具包(JDK)。这将包含在下面的第一步中。
同样还需要在电脑上安装Spark软件。下面的第二步将介绍如何完成这项工作。
注:下面这些指令都是以Windows环境为例。如果你使用不同的操作系统环境,需要相应的修改系统变量和目录路径已匹配你的环境。
I.安装JDK
1)从Oracle网站上下载JDK。推荐使用JDK1.7版本。
将JDK安装到一个没有空格的目录下。对于Windows用户,需要将JDK安装到像c:\dev这样的文件夹下,而不能安装到“c:\ProgramFiles”文件夹下。“c:\ProgramFiles”文件夹的名字中包含空格,如果软件安装到这个文件夹下会导致一些问题。
注:不要在“c:\ProgramFiles”文件夹中安装JDK或(第二步中所描述的)Spark软件。
2)完成JDK安装后,切换至JDK1.7目录下的”bin“文件夹,然后键入如下命令,验证JDK是否正确安装:
java-version
如果JDK安装正确,上述命令将显示Java版本。
II.安装Spark软件:
从Spark网站上下载最新版本的Spark。在本文发表时,最新的Spark版本是1.2。你可以根据Hadoop的版本选择一个特定的Spark版本安装。我下载了与Hadoop2.4或更高版本匹配的Spark,文件名是spark-1.2.0-bin-hadoop2.4.tgz。
将安装文件解压到本地文件夹中(如:c:\dev)。
为了验证Spark安装的正确性,切换至Spark文件夹然后用如下命令启动SparkShell。这是Windows环境下的命令。如果使用Linux或MacOS,请相应地编辑命令以便能够在相应的平台上正确运行。
c:
cdc:\dev\spark-1.2.0-bin-hadoop2.4
bin\spark-shell
如果Spark安装正确,就能够在控制台的输出中看到如下信息。
….
15/01/1723:17:46INFOHttpServer:StartingHTTPServer
15/01/1723:17:46INFOUtils:Successfullystartedservice'HTTPclassserver'onport58132.
Welcometo
______
/__/__________//__
_\\/_\/_`/__/'_/
/___/.__/\_,_/_//_/\_\version1.2.0
/_/
UsingScalaversion2.10.4(JavaHotSpot(TM)64-BitServerVM,Java1.7.0_71)
Typeinexpressionstohavethemevaluated.
Type:helpformoreinformation.
….
15/01/1723:17:53INFOBlockManagerMaster:RegisteredBlockManager
15/01/1723:17:53INFOSparkILoop:Createdsparkcontext..
Sparkcontextavailableassc.
可以键入如下命令检查SparkShell是否工作正常。
sc.version
(或)
sc.appName
完成上述步骤之后,可以键入如下命令退出SparkShell窗口:
:quit
如果想启动SparkPythonShell,需要先在电脑上安装Python。你可以下载并安装Anaconda,这是一个免费的Python发行版本,其中包括了一些比较流行的科学、数学、工程和数据分析方面的Python包。
然后可以运行如下命令启动SparkPythonShell:
c:
cdc:\dev\spark-1.2.0-bin-hadoop2.4
bin\pyspark
大数据+时代,IT高薪就业培训,就选光环大数据!
大数据培训、人工智能培训、Python培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请专业的大数据领域知名讲师,确保教学的整体质量与教学水准。讲师团及时掌握时代潮流技术,将前沿技能融入教学中,确保学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式,指导学生更快的掌握技能知识,成就上万个高薪就业学子。 更多问题咨询,欢迎点击------>>>>在线客服!