您现在的位置:主页 > 大数据培训 > 大数据分析培训 云端大数据分析的关键一环

大数据分析培训 云端大数据分析的关键一环

2017-06-23 15:31
大数据分析培训哪里好?大数据分析培训机构,就选光环大数据!光环大数据培训,讲师都是实战讲师,有十几年的软件开发经验和5年以上的实战经验,在业内口碑非常不错。关于师资质量这点非常重要,大家可以去了解一下。优秀的大数据培训机构能让自己能和大数据行业最前沿的项目、最主流的技术接触,这对你的学习成长非常的重要。

大数据分析培训
 
Hadoop正成为企业用于大数据分析的最热门选择,但想将你的数据移植过去并不容易。Apache Sqoop正在加紧帮助客户将重要数据从数据库移到Hadoop。

  正当大数据变得越来越重要,而越来越多应用都在云上部署时,云管理员也面临了不断增长的将数据从源系统转移到分析系统——其中最热门的就是Hadoop——的需求。ETL工具的自定义脚本在过去辅助了这种数据迁移,现在Apache Sqoop正崛起成为更好的选择。

  随着Hadoop和关系型数据库之间的数据移动渐渐变成一个标准的流程,云管理员们能够利用Sqoop的并行批量数据加载能力来简化这一流程,降低编写自定义数据加载脚本的需求。

  Apache Sqoop是一个将数据在关系数据库及Hadoop之间转移的命令行工具。对于某些NoSQL数据库它也提供了连接器。Sqoop,类似于其他ETL工具,使用元数据模型来判断数据类型并在数据从数据源转移到Hadoop时确保类型安全的数据处理。Sqoop专为大数据批量传输设计,能够分割数据集并创建Hadoop任务来处理每个区块。

  Sqoop有一个非常小的命令集,里面包括导入和导出,列出数据库和表信息,生成Java类来操纵数据,解析SQL命令以及其他一些更专门的命令。生成Java类的命令对于在Hadoop里编写Java应用来进行数据操作特别有用。SQL解析命令可以显示执行SQL语句的结果,这在搜索新数据库或产生复杂逻辑的查询时非常有用。

  使用Sqoop比自定义脚本有一定的优势。其一就是,Sqoop被设计成具备容错性。你也可以自定义脚本来监控你的工作状态,然后从故障中恢复,但是那有可能难以置信的耗时。
尽管有以上的优点,在使用Sqoop的时候还有一些事情需要注意。首先,对于默认的并行机制要小心。默认情况下的并行意味着Sqoop假设大数据是在分区键范围内均匀分布的。这在当你的源系统是使用一个序列号发生器来生成主键的时候工作得很好。打个比方,当你有一个10个节点的集群,那么工作负载是在这10台服务器上平均分配的。但是,如果你的分割键是基于字母数字的,拥有比如以“A”作为开头的键值的数量会是“M”作为开头键值数量的20倍,那么工作负载就会变成从一台服务器倾斜到另一台服务器上。
原创文章,转载请注明:光环大数据 大数据分析培训