您现在的位置:主页 > 学习资源 > 大数据培训机构 盘点Hadoop的12个技术痛点

大数据培训机构 盘点Hadoop的12个技术痛点

2017-06-22 11:51
  大数据培训机构是专门培养大数据人才的地方,光环大数据的大数据培训机构学员在学习期间能边学边实践,毕业就能拥有实践经验而找到好的工作。

大数据培训机构
 
  Hadoop是一个很神奇的创造,但它发展过快而表现出一些瑕疵。我爱大象,大象也爱我。不过这世上没什么是完美的,有的时候,即使是再好的朋友间也会起冲突。就像我和Hadoop之间的存在斗争一样。下面是我列举的12个痛点。

  1.Pigvs.Hive

  你在Pig里用不了HiveUDFS。在Pig中你必须用HCatalog来访问Hive表。你在Hive里用不了PigUDFS。在Hive中无论是多么小的额外功能,我都不会感觉像写一个Pig脚本或者“啊,如果是在Hive里我可以轻易地完成”,尤其是当我写Pig脚本的时候,当我在写其中之一的时候,我经常想,“要是能跳过这堵墙就好了!”。

  2.被迫存储我所有共享库到HDFS

  这是Hadoop的复发机制。如果你保存你的Pig脚本到HDFS上,那么它会自动假设所有的JAR文件都会在你那里一样。这种机制在Oozie和别的工具上也出现了。这通常无关紧要,但有时,必须存储一个组织的共享库版本就很痛苦了。还有,大多数时候,你安装在不同客户端的相同JAR,那么为什么要保存两次?这在Pig中被修复了。别的地方呢?

  3.Oozie

  Debug并不好玩,所以文档里有很多老式的例子。当你遇到错误,可能并不是你做错了什么。可能是配置打印错误或者格式验证错误,统称“协议错误”。很大程度上,Oozie就像Ant或Maven,除了分布式的,不需要工具、有点易错。

  4.错误信息

  你在开玩笑,对吧?说到错误信息。我最喜欢的是任何Hadoop工具说的,“失败,无错误返回,”可以翻译成“发生了什么,能找到是你的运气。”

  5.Kerberos身份认证协议

  如果你想要想出一种相对安全的Hadoop,你就要用到Kerberos。记住Kerberos和它是多么的老旧?所以你只要LDAP,除了它Hadoop中的都没有被集成:没单点登录,无SAML,无OAuth,无证书传递(相反地,它会重新认证)。更有趣的是,Hadoop是生态系统的每一个部分都写它自己的LDAP支持,所以这就是矛盾的。

  6.Knox数据保护应用程序

  因为用Java写一个合适的LDAP连接器需要做至少100次才能保证正确。哎呀,看看那代码。它并不真正地有效维护好连接池。实际上,我想Knox就是为Java或者一时的热情而创造出来的。你可以通过一个写好的Apacheconfig,mod_proxy,mod_rewrite做同样的事情。实际上,那是Knox的基础,除了在Java中。对于启动,在认证之后,它不传递信息给Hive或WebHDFS或你正在访问的东西,但是会启动它。

  7.Hive不会让我制作外部表格,但也不会删除它

  如果你让Hive来管理表格,要是你终止对表格的使用的话,它会自动将它们全部删除。如果你有一个外部表格,它就不会将它删除。为什么不能有一个“也删除外部表”的功能呢?为什么我必须在外部删除?还有,当Hive特别是与RDBMS一起应用时,为什么不能有Update和Delete功能?

  8.Namenode失败

  Oozie、Knox和Hadoop的其它部分都不遵循新的NamenodeHA资料。你可以在Hadoop中启用HA,只要你不使用与之相关的东西。

  9.文档

  抱怨都是陈词滥调了,但是还是检查一下。37行错了——更糟糕的是,网络上的所有文章都错了。这证明没有人会费心在执行前检查一下。Oozie文档更可怕,大多数例子对它给的格式校验都无法通过。

  10.Ambari覆盖范围

  我曾批评过Ambari,就我所知的Hadoop架构来说,Ambari能够工作真是很神奇。那么,他们可能会抱怨,Ambari的缺点到底在哪?例如,Ambari不能安装,或者有些情况下不能正确安装,包括多种HA设置,Knox等等。我确定它会变得更好,但是“手动安装之后”或者“我们已经创建了一个备份脚本”,这些不应该出现在我的邮件和文档中。

  11.知识库管理

  说到Ambari,当知识正在升级的时候,你有完成过安装吗?我有过,但是它表现的并不好。实际上,有时候它找到了最快的镜像。Ambari并不关注它下载下来的东西是否兼容。你可以用你自己的方式配置那部分,但是它在数百个Hadoop节点上仍然会报说你安装有误。

  12.Null指针异常

  我经常在运行过程中遇到这样的转换错误,换句话说,他们不应该在Pig、Hive等数据查询和处理工具中被表示为Null指针异常。对任何相似的抱怨,都会有的答复,“欢迎补丁!”或者“嘿,我正在处理。”

  Hadoop已经出来很长时间了,它一直是我最喜欢的工具之一,但是那些令人发狂的尖锐问题也使我很生气。只是希望开发者能多用心解决这些问题。不知道你有没有相似的Hadoopbug可以拿出来和大家分享一下,目的是督促Hadoop能做得更好!