24小时咨询电话:0571-8802321710年专业网络服务供应商

资讯中心

- 直击网站建设第一现场,掌握全球化的消息 -

当前位置 : 首页 > 新闻中心 > 建站知识 > 【杭州网站设计】Hadoop是最完美的数据仓库体系结构吗?

【杭州网站设计】Hadoop是最完美的数据仓库体系结构吗?

分享 2011.06.10 浏览次数:7163次

从Yahoo的 Web搜索研究,到Facebook的数据分析,再到百度的搜索日志分析、淘宝的数据魔方服务,Hadoop的身影都已经到处闪现。简单来讲,社会化数据时代的企业需要像八爪鱼一样,能够发现并拿到他需要的数据,而Hadoop技术的好处就是,不但可以方便地嵌入到各种实际应用中以实现全文搜索/索引,而且可以进行数据抓取。比如雅虎,通过应用这一技术,几乎可以实时分析每一个页面点击并优化内容的排名,每7分钟就能更新一次结果。

“PB级别的企业数据仓库已经可以大规模并行处理数据并且可以对海量数据的分析数据进行高效的管理”,Forrester的分析师James Kobielus表示。

以Hadoop为代表的海量数据处理开源工具无疑是吸引人的,“开源工具可以查看代码,这样开发者可以找到他们整合时里面是什么。在几乎所有的案例中,开源分析都更具性价比和灵活性。”Revolution Analytics的Minelli表示。

毫无疑问,Hadoop在企业级数据仓库应用上有许多优势,比如:

Hadoop是开源的。它能带来较低的成本,无需支付高昂的授权许可费。

其次是其灵活性,允许用户自己修改代码。

最后是可以获得具有领先且创新性的Hadoop社区的支持。

更长远的来看,开源Hadoop使企业有了新的分析技术,能够更好的处理非结构化的语言,比如图片等。而不需要完全寄托于传统数据仓库厂商的分析技术,开源的Hadoop给了企业创新的机会。

Kobielus指出,Hadoop核心之所以成为企业数据仓库最佳解决方案,原因在于其数据库分析方式与供应商无关。再加上MapReduce框架的强大支持,将使其成为完美的企业级云数据仓库。

Hadoop最佳实践案例

企业使用Hadoop在云计算中能够做什么?Kobielus列举出三个受欢迎的案例。

1、结构化与非结构化数据

现在我们在听到海量数据的时候,主要的关注点通常会在一些互联网巨头上,像谷歌和Twitter都在使用,但互联网其实并没有创造大数据,也不会仅仅因为Hadoop就得到广泛应用。

在CSDN之前对1446个数据库管理人员的调查中,有78%的被调查者表示,非结构化数据是他们当前面临的最大问题,超过一半的人认为,在未来的三年中,非结构化数据将超过过去10年的结构化数据总和。

实际上,金融服务企业已经处理大型数据负载相当长的时间了,尽管到目前为止,其数据处理的效果不一定是最杰出的。企业最初时常创建并得到少量松散的数据。现在他们开始通过私有云进行试验,而且通过Hadoop和MapReduce技术关联数据方法,通过计算集群完成高速数据分析。

2、通过Hadoop日志对事件进行分析,主要应用是Web搜索

Hadoop的最常见用法之一是Web搜索。虽然它不是惟一的软件框架应用程序,但作为一个并行数据处理引擎,它的表现非常突出。Hadoop最有趣的方面之一是Map and Reduce流程,它受到Google开发的启发。这个流程称为创建索引,它将Web爬行器检索到的文本Web页面作为输入,并且将这些页面上的单词的频率报告作为结果。然后可以在整个Web搜索过程中使用这个结果从已定义的搜索参数中识别内容。

3、内容层分析

借助Hadoop,我们可以线性扩展运行在硬件上的集群来集成更大更丰富的数据集。能够在之前没有整合的异构数据源上运行分析,然后在同样的数据上有规模地运行分析。

实际上,对于专业的数据分析人员而言,这个功能无疑会让他们喜欢,因为基于Mapreduce建模的Hadoop所提供的数据挖掘功能,这极大他们了解到客户的最新行为分析。如Flip Kromer(InfoChimps 创办人之一)所描述的:“web从一个对每件事都了解一点的场所发展成为对一件事了解其全部的场所”。

Hadoop的未来

可以预见的是,Hadoop作为企业级数据仓库体系结构核心技术,在未来的10年中它将会保持增长。

尽管从技术上而言,Hadoop的MapReduce在性能上仍然有一定局限性的:比如MapReduce没有索引,只有靠强大的运算能力来处理;此外,MapReduce本身存在一些lower-level实现的问题, 特别是skew和数据交换等等。

Cloudscale创始人和首席执行官Bill McColl也曾指出,从性能上而言,下一代的架构需要在MapReduce/Hadoop的基础上有10——10000倍的性能提高。

“但这些都不是问题”,Kobielus表示,“在这些问题解决之前,Hadoop会有广泛的采用。因为相对于传统的企业级数据仓库体系结构,Hadoop是最好的。”

杭州网站建设 杭州网站设计 杭州网站制作 杭州精典网站设计公司

最新网站案例

洞悉市场趋势演变让传播回归社会

    免费获取网站建设与网络推广方案报价

    • 关于我们

      杭州帷拓科技有限公司,是一家新型的全案网络开发公司,作为以互联网高端网站建设、APP开发、小程序开发为核心的专业网络技术服务供应商,帷拓科技致力于全面分析市场环境、衡量与预测市场需求、整合区别于行业竞争对手的绝对优势,结合品牌理念深度挖掘项目优势和产品价值,提升客户品牌认知、认可度。

    • 我们的客户

      帷拓科技历经十年沉淀,与国内外上千家客户达成合作关系,其中稳定合作的公司有:浙江华为、浙江移动、浙江5G产业联盟、浙江省社科院、绿城足球俱乐部、娃哈哈双语学校、健康中国杭州峰会、科雷机电等,帷拓科技始终坚持“帷有专业,才能拓展无限”的服务理念,坚持“认真坚持细节”的优质服务理念,不断完善自身,成就企业,最终实现共赢。

    • 我们的业务

      帷拓科技主营业务范围包含互联网高端网站建设、APP开发、小程序开发、商城网站建设、公众号运营以及数字营销等,涵盖了服务、房产、数码、服装、物流贸易等行业,根据品牌现状,为每个客户量身定制项目整体服务方案,以敏锐的市场洞察力、创新的市场策划能力,全面把握市场变化,为客户实现从企业到消费者的价值转换。

    Designerpart Designagentur
    Designerpart Designagentur
    Designerpart Designagentur
    Designerpart Designagentur
    Designerpart Designagentur
    Designerpart Designagentur