Hive编程指南--高清版.pdf

上传:xyh73572 浏览: 73 推荐: 0 文件:PDF 大小:26.31MB 上传时间:2019-05-16 11:05:41 版权申诉
Hive编程指南--高清版.pdf 个人收集电子书,仅用学习使用,不可用于商业用途,如有版权问题,请联系删除!内容提要本书是一本 Apache Hive的编程指南,旨在介绍如何使用Hive的SQL方法— HiveQl来汇总、查询和分析存储在 Hadoop分布式文件系统上的大数据集合。全书通过大量的实例,首先介绍如何在用户环境下安装和配置Hive,并对 Hadoop和 MapReduce进行详尽阐述,最终演示Hive如何在Hado0p生态系统进行工作。本书适合对大数据感兴趣的爱好者以及正在使用 Hadoop系统的数据库管理员阅读使用。O Reilly Media,nc介绍O'Reilly media通过图书、杂志、在线服务、调查研究和会议等方式传播创新知识。自1978年开始, OReilly-一直都是前沿发展的见证者和推动者。超级极客们正在开创着未来,而我们关注真正重要的技术趋势——通过放大那些“细微的信号”来刺激社会对新科技的应用。作为技术社区中活跃的参与者,ORel的发展充满了对创新的倡导、创造和发扬光大O’ Reilly.为软件开发人员带来革命性的“动物书”;创建第一个商业网站(GNN);组织了影响深远的开放源代码峰会,以至于开源软件运动以此命名;创立了Make杂志,从而成为DIY革命的主要先锋;公司一如既往地通过多种形式缔结信息与人的纽带。 O'Reilly的会议和峰会集聚了众多超级极客和高瞻远瞩的商业领袖,共同描绘出开创新产业的革命性思想。作为技术人士获取信息的选择, O'Reilly现在还将先锋专家的知识传递给普通的计算机用户。无论是通过书籍出版,在线服务或者面授课程,每一项 OReilly的产品都反映了公司不可动摇的理念—信息是激发创新的力量。业界评论O'Reilly radar博客有口皆碑。Wired“ OReilly凭借一系列(真希望当初我也想到了)非凡想法建立了数百万美元的业务。”Business 2.0O'Reilly Conference是聚集关键思想领袖的绝对典范。CRN本O' Reilly的书就代表一个有用、有前途、需要学习的主题。”-Irish TimesTim是位特立独行的商人,他不光放眼于最长远、最广阔的视野并且切实地按照Yogi berra的建议去做了:‘如果你在路上遇到岔路口,走小路(岔路)。’回顾过去Tim似乎每一次都选择了小路,而且有几次都是一闪即逝的杌会,尽管大路也不错-Linux Journal作者简介Edward Capriolo目前是 Mediabdegree公司的系统管理员,在这里他为互联网广告企业提供设计和维护分布式数据存储系统的服务。Edward是 Apache软件基金会的成员,同时也是 Hadoop/Hve项目的贡献者。 Edward具有软件开发经验,同时也具有 Linux和网络管理员的经历,而且对于开源软件世界充满了热情。Dean Wampler是 Think Big Analytics公司的首席顾问,其擅长“大数据”文件,以及像Hadoop这样的工具研究,还有机器学习相关的内容。除了擅长大数据,他还擅长 Scala、JVM生态系统、 JavaScript、Ruby、函数式以及面向对象编程,同时还擅长敏捷方法。Dean经常性地在工业和学术会议上就这些主题进行演讲。他还具有来自华盛顿大学的物理学博士学位。Jason rutherglen是 Think Big Analytics公司的一名软件架构师,其擅长大数据、 Hadoop搜索和安全领域。作者序Edward Capriolo当我第一次参与到 Hadoop里时,我看到了分布式文件系统和 Mapreduce计算框架可以以一种伟大的方式来解决计算密集型的问题。然而,使用 Mapreduce编程模型进行编程曾经对于我来说是件非常麻烦的事情。Hive提供了一个类SQL的方式可以让我快速而又简单地利用到 MapReduce计算的优势。这种方法也使得概念验证应用程序原型设计变得容易,同时在内部可以很好地使用 Hadoop作为解决方案。尽管我现在非常熟悉Hadoop内核,Hive仍然是我利用 Hadoop进行工作的主要方法。能够参与编写一本关于Hive的书,对我来说是一件非常荣耀的事情;同时能够作为名Hve代码贡献者和 Apache软件基金会的成员也是我最有价值的荣誉。Dean Wampler作为 Think Big Analytics公司的一名“大数据”顾问,我经常和一群具有丰富经验的SQL“数据人”一起工作。对他们来说,使用Hive是必要且充分的,这样才能使用 Hadoop作为可行的工具,并利用他们的SQL知识来使用数据分析,开创新的机遇。Hive缺乏良好的文档。我向 O'Reilly出版社的编辑 Mike loukides建议,社区确实需要一本Hive相关的书籍。于是,本书应运而生…Jason rutherglen我是 Think Big Analytics公司的一名软件架构师。我的职业生涯涉及一系列的技术,包括搜索、 Hadoop、移动、密码学和自然语言处理。Hive是使用开源技术,基于海量数据构建数据仓库的最终方式。我在很多不同的项目中使用了Hive。致谢感谢参与到Hive中的每一个人。包括代码贡献者、参与者以及最终用户。Mark grove编写了Hive和亚马逊网络服务那一章的内容。他是一个 Apache Hive项目的贡献者并在 Hive Irc上非常积极地帮助他人。M6D公司的 David ha和 Rumit pate贡献了案例研究章节的内容和等级函数的代码。在Hive中可以进行排名是一个重要的特性。M6D公司的 Stitelman,贡献了案例研究章节中关于数据科学如何使用Hve和R的内容,其中演示了如何通过Hive对大数据集进行一次处理并提供了产生的结果,然后在之后的处理过程中使用R处理Hive产生的结果数据。David funk贡献了3个用例,即:站内引用链接识别、会话化、计数独立用户访问量。Davd的技术说明展示了如何重写和优化Hive查询可以使数据分析效率得到大幅度提高。 Ian robertson审阅了整个书的初稿并提供非常有用的反馈信息。我们非常感谢他,在时间很紧的短时间内提供了这些反馈。John sichi对本书进行了专业技术评审。John同时也帮助开发了Hive中的一些新特性,例如 Storage Handlers和索引支持。他一直积极帮助支持Hive社区的成长。Alan Gates,《Pg编程指南》的作者,贡献了关于 CAtalog的那一章内容 Nanda vijaydev贡献了关于 Karmasphere公司如何将Hive进行增强并提供产品化的那一章内容。EicLubow提供了关于 SimpleReach公司的案例研究。 Chris A. Mattmann、 Paul zimdarsCameron goodale、 Andrew F.Hart、 Jinwen Kim、 Duane Walser和 Peter lean共同贡献了美国宇航局喷气推进实验室( NASA JPL)的案例研究前言本书是一本Hive的编程指南。Hive是 Hadoop生态系统中必不可少的一个工具,它提供了一种SQL(结构化查询语言)方言,可以查询存储在Hado分布式文件系统(HDFS)中的数据或其他和 Hadoop集成的文件系统,如MapR-FS、 Amazon的S3和像 HBase( Hadoop数据库)和 Cassandra这样的数据库中的数据。大多数数据仓库应用程序都是使用关系数据库进行实现的,并使用SQL作为查询语言。Hive降低了将这些应用程序转移到Haop系统上的难度。凡是会使用SQL语言的开发人员都可以很轻松地学习并使用Hive。如果没有Hive,那么这些用户就必须学习新的语言和工具,然后才能应用到生产环境中。另外,相比其他工具,Hive更便于开发人员将基于SQL的应用程序转移到 Hadoop l中。如果没有Hive,那么开发者将面临一个艰巨的挑战,如何将他们的SQL应用程序移植到 Hadoop上。不过,Hive和其他基于SQL的环境还是有一些差异的。如今,可供Hive用户和 Hadoop开发者使用的文档并不多,所以我们决定撰写这本书来填补这个缺口。我们将对Hive进行全面详实的介绍,主要适用于SQL专家,如数据库设计人员和业务分析师。我们也谈到了深入的技术细节,可以帮助 Hadoop开发人员对Hive进行调优和定制。用户可以在本书的目录页面了解到更多信息:htt! oreil.lyProgramming Hive。本书中所使用的约定本书中使用到了如下几种印刷字体斜体字表明是新的术语、URL、电子邮件地址、文件名或者文件扩展名。等宽字体用于程序列表,同时段落中使用到的了程序片段,例如变量或者函数名称、数据库数据类型、环境变量、语句和关键字。等宽粗体表示是命令或者其他需要用户进行输入的文本。等宽斜体表示这个文本需要用户提供对应的值或者需要通过上下文才能获取到的值。提示这个图标表明是一个小技巧、建议或者一般性的注释瞀告这个图标表明是个警告或者警示使用的代码示例本书的目的是帮助用户完成他们的任务。通常情况下,用户可以在他们的程序和文档中使用本书中的代码。如此不需要联系我们以获取许可,除非明显地复制了代码的大部分内容。例如,写程序用到了本书中几个代码片段是不需要获得许可的,但是如果销售或者传播包含了 O'Reilly系列书籍中的例子的CD光盘,那么就一定要获得我们的许可才行。在回答问题时引用到本书或以本书中的例子为引证时不需要获得许可,将定数量的样例代码复制到自己的产品文档中则一定需要获得我们的许可才可以。虽然并非是必需的,但如果可以注明出处,我们将十分感激。出处一般包括标题,作者,出版商和ISBN。例如:“ Programming Hive by Edward Capriolo, Dean Wampler,andJason Rutherglen(O'Reilly). Copyright 2012 Edward Capriolo, Aspect Research Associatesand Jason rutherglen, 978-1-449-31933-5如果用户感觉自己没有合理地或者在如上所述的许可范围内使用本书中代码样例的话,请尽管通过permissions@Doreilly.com联系我们。Safaris在线图书Safari在线图书是一个按需服务的数字图书馆。使用它,用户Safari°》可以轻松检索超过7500技术和创意参考书以及视频教程,Books onaiR快速获得想知道的答案。通过订阅,用户可以从我们的在线图书馆中阅读每一篇文章或观看每一部视频。通过用户的手机和其他移动设备看书。在书还没有印刷前就可以事先看到书目,还可以看到正在进行中的草稿,并可以将意见反馈给作者。复制粘贴代码样例,组织用户的收藏夹,下载一些章节,对关键章节标记标签,创建笔记,打印书籍内容,并通过其他众多的省时功能而受益。前言
上传资源
用户评论