您现在的位置：主页 > 大数据资讯 > 大数据培训班一文看懂大数据的技术生态圈

大数据培训班一文看懂大数据的技术生态圈

2017-06-21 11:48

　　光环大数据的大数据培训班，是国内知名培训机构光环国际开设的一个大数据培训班的课程，拥有16年的it培训经验，一线名师面授，保障学员能学到真本事。

　　大数据培训班的讲师了解到，传统的文件系统是单机的，不能横跨不同的机器。HDFS(HadoopDistributedFileSystem)的设计本质上是为了大量的数据能横跨成百上千台机器，但是你看到的是一个文件系统而不是很多文件系统。比如你说我要获取/hdfs/tmp/file1的数据，你引用的是一个文件路径，但是实际的数据存放在很多不同的机器上。你作为用户，不需要知道这些，就好比在单机上你不关心文件分散在什么磁道什么扇区一样。HDFS为你管理这些数据。

　　大数据培训班的讲师了解到，存的下数据之后，你就开始考虑怎么处理数据。虽然HDFS可以为你整体管理不同机器上的数据，但是这些数据太大了。一台机器读取成T上P的数据(很大的数据哦，比如整个东京热有史以来所有高清电影的大小甚至更大)，一台机器慢慢跑也许需要好几天甚至好几周。对于很多公司来说，单机处理是不可忍受的，比如微博要更新24小时热博，它必须在24小时之内跑完这些处理。那么我如果要用很多台机器处理，我就面临了如何分配工作，如果一台机器挂了如何重新启动相应的任务，机器之间如何互相通信交换数据以完成复杂的计算等等。这就是MapReduce/Tez/Spark的功能。MapReduce是第一代计算引擎，Tez和Spark是第二代。MapReduce的设计，采用了很简化的计算模型，只有Map和Reduce两个计算过程(中间用Shuffle串联)，用这个模型，已经可以处理大数据领域很大一部分问题了。

　　那什么是Map什么是Reduce?

　　大数据培训班的讲师了解到，考虑如果你要统计一个巨大的文本文件存储在类似HDFS上，你想要知道这个文本里各个词的出现频率。你启动了一个MapReduce程序。Map阶段，几百台机器同时读取这个文件的各个部分，分别把各自读到的部分分别统计出词频，产生类似(hello,12100次)，(world，15214次)等等这样的Pair(我这里把Map和Combine放在一起说以便简化);这几百台机器各自都产生了如上的集合，然后又有几百台机器启动Reduce处理。Reducer机器A将从Mapper机器收到所有以A开头的统计结果，机器B将收到B开头的词汇统计结果(当然实际上不会真的以字母开头做依据，而是用函数产生Hash值以避免数据串化。因为类似X开头的词肯定比其他要少得多，而你不希望数据处理各个机器的工作量相差悬殊)。然后这些Reducer将再次汇总，(hello，12100)+(hello，12311)+(hello，345881)=(hello，370292)。每个Reducer都如上处理，你就得到了整个文件的词频结果。

　　大数据培训班哪家好？大数据培训班就选光环大数据！

上一篇：光环大数据：大学生玩转大数据 “PM2.5时空预测”夺冠
下一篇：光环大数据企业间大数据资源争夺越发激烈

大数据培训班一文看懂大数据的技术生态圈

相关阅读

推荐文章系列

大数据培训班 一文看懂大数据的技术生态圈

相关阅读

推荐文章系列

大数据培训班一文看懂大数据的技术生态圈