Hadoop已成为公认的新一代大数据处理平台。Hadoop 是一个能够对大量数据进行分布式处理的软件框架。它以谷歌发布的MapReduce及谷歌文件系统技术研究论文为基础。Hadoop充当着众多“大数据”分析工具的底层技术,旨在对由Web访问、服务器日志及其它各类数据流所产生的海量数据进行筛选,在分布式环境下提供海量数据的处理能力。
Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。它以计算元素和存储会失败为前提,维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop以并行的方式工作,通过并行处理加快处理速度,能够处理PB级数据。此外,Hadoop依赖于社区服务器,所以它又具有低成本的优点。
目前,几乎所有的主流厂商都提供了基于Hadoop的大数据分析工具。如IBM、EMC、英特尔、甲骨文等都纷纷投入到Hadoop怀抱。
IBM很早就开始在实验室尝试使用Hadoop,但是,直到2012年才推出了首款大数据分析产品:IBM InfoSphere BigInsights。该产品既可以分析数据库中的传统结构化数据,也可以分析例如文本、视频、音频、图像、社交媒体、点击流、日志文件、天气数据等非结构化数据,帮助决策者根据数据迅速采取行动。
EMC基于Hadoop的发行版Pivotal HDs可以让数据团队和分析团队在该平台上无缝共享信息、协作分析。其最大的优势是能够与Greenplum数据库进行整合,而不仅仅是在Hadoop中运行SQL这么简单。
英特尔推出的Hadoop发行版不但改写了Hadoop框架的核心功能,强化对处理器指令集的支持来提高效能,可直接支持Xeon进阶运算加密指令集AES-NI,并在数据储存到H的过程,用芯片原生的加密功能保护,这是英特尔进军大数据的杀手锏软件。
作为老牌数据库厂商,甲骨文在大数据领域更是不甘人后,推出了Oracle大数据平台解决方案,该方案为Exadata+大数据机+Exalytics的组合,利用这“三驾马车”分别应对数据捕获、组织、分析和决策。利用大数据机来捕获所有可用数据,通过Hadoop来将不同类型的数据组织为易分析的数据;然后再利用Exadata进行分析,其中Exalytics将起到加速BI分析过程的作用。
让业务乘着大数据技术的东风提升企业价值,这几乎是所有企业用户的心声。数据的海量增加,尤其是非结构化数据的无序增加,给诸多企业的数据信息处理带来了极大的挑战,诸多公司IT主管都面临着大数据处理分析这一挑战,一旦大数据难以分析这个问题得以解决,数据将给公司带来无限的价值,并将指引公司走向更辉煌的成功。