Spark应用示例 光环大数据培训

编辑:光环大数据 来源: 互联网 时间: 2017-12-26 17:54 阅读:

  光环大数据是专注大数据、人工智能垂直领域高薪就业培训机构,多年来专注大数据人才培养,携17年IT培训经验,与中关村软件园共同建立国家大数据人才培养基地,并与全球知名大厂商cloudera战略合作培养中国大数据高级人才,专注为大学生及在职人员提供专业师资平台及培训服务,助力他们高薪名企就业。

Spark应用示例

本篇文章中所涉及的示例应用是一个简单的字数统计应用。这与学习用Hadoop进行大数据处理时的示例应用相同。我们将在一个文本文件上执行一些数据分析查询。本示例中的文本文件和数据集都很小,不过无须修改任何代码,示例中所用到的Spark查询同样可以用到大容量数据集之上。

为了让讨论尽量简单,我们将使用SparkScalaShell。

首先让我们看一下如何在你自己的电脑上安装Spark。

前提条件:

为了让Spark能够在本机正常工作,你需要安装Java开发工具包(JDK)。这将包含在下面的第一步中。

同样还需要在电脑上安装Spark软件。下面的第二步将介绍如何完成这项工作。

注:下面这些指令都是以Windows环境为例。如果你使用不同的操作系统环境,需要相应的修改系统变量和目录路径已匹配你的环境。

I.安装JDK

1)从Oracle网站上下载JDK。推荐使用JDK1.7版本。

将JDK安装到一个没有空格的目录下。对于Windows用户,需要将JDK安装到像c:\dev这样的文件夹下,而不能安装到“c:\ProgramFiles”文件夹下。“c:\ProgramFiles”文件夹的名字中包含空格,如果软件安装到这个文件夹下会导致一些问题。

注:不要在“c:\ProgramFiles”文件夹中安装JDK或(第二步中所描述的)Spark软件。

2)完成JDK安装后,切换至JDK1.7目录下的”bin“文件夹,然后键入如下命令,验证JDK是否正确安装:

java-version

如果JDK安装正确,上述命令将显示Java版本。

II.安装Spark软件:

从Spark网站上下载最新版本的Spark。在本文发表时,最新的Spark版本是1.2。你可以根据Hadoop的版本选择一个特定的Spark版本安装。我下载了与Hadoop2.4或更高版本匹配的Spark,文件名是spark-1.2.0-bin-hadoop2.4.tgz。

将安装文件解压到本地文件夹中(如:c:\dev)。

为了验证Spark安装的正确性,切换至Spark文件夹然后用如下命令启动SparkShell。这是Windows环境下的命令。如果使用Linux或MacOS,请相应地编辑命令以便能够在相应的平台上正确运行。

c:

cdc:\dev\spark-1.2.0-bin-hadoop2.4

bin\spark-shell

如果Spark安装正确,就能够在控制台的输出中看到如下信息。

….

15/01/1723:17:46INFOHttpServer:StartingHTTPServer

15/01/1723:17:46INFOUtils:Successfullystartedservice'HTTPclassserver'onport58132.

Welcometo

______

/__/__________//__

_\\/_\/_`/__/'_/

/___/.__/\_,_/_//_/\_\version1.2.0

/_/

UsingScalaversion2.10.4(JavaHotSpot(TM)64-BitServerVM,Java1.7.0_71)

Typeinexpressionstohavethemevaluated.

Type:helpformoreinformation.

….

15/01/1723:17:53INFOBlockManagerMaster:RegisteredBlockManager

15/01/1723:17:53INFOSparkILoop:Createdsparkcontext..

Sparkcontextavailableassc.

可以键入如下命令检查SparkShell是否工作正常。

sc.version

(或)

sc.appName

完成上述步骤之后,可以键入如下命令退出SparkShell窗口:

:quit

如果想启动SparkPythonShell,需要先在电脑上安装Python。你可以下载并安装Anaconda,这是一个免费的Python发行版本,其中包括了一些比较流行的科学、数学、工程和数据分析方面的Python包。

然后可以运行如下命令启动SparkPythonShell:

c:

cdc:\dev\spark-1.2.0-bin-hadoop2.4

bin\pyspark

  大数据+时代,IT高薪就业培训,就选光环大数据!


大数据培训、人工智能培训、Python培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请专业的大数据领域知名讲师,确保教学的整体质量与教学水准。讲师团及时掌握时代潮流技术,将前沿技能融入教学中,确保学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式,指导学生更快的掌握技能知识,成就上万个高薪就业学子。 更多问题咨询,欢迎点击------>>>>在线客服

你可能也喜欢这些

在线客服咨询

领取资料

X
立即免费领取

请准确填写您的信息

点击领取
#第三方统计代码(模版变量) '); })();
'); })();