猪和蜂巢的区别?为什么两者都有?

我的背景——在Hadoop世界工作了4周。使用Cloudera的Hadoop VM对Hive, Pig和Hadoop进行了一些尝试。已阅读谷歌关于Map-Reduce和GFS的论文(PDF链接)。

我明白——

猪的语言猪的拉丁语是一种转变来自(适合程序员的思维方式) SQL喜欢声明式的编程和Hive的查询语言密切相关类似于SQL。 Pig位于Hadoop之上原则也可以凌驾于之上德律阿得斯。我可能错了，但蜂巢错了与Hadoop紧密耦合。都是Pig Latin和Hive命令编译映射和减少作业。

我的问题是——当一个(比如猪)可以达到目的时，拥有两者的目标是什么?难道只是因为雅虎宣传了Pig !和Facebook的Hive ?

当前回答

有什么是HIVE可以做到的，而PIG做不到的?

分区可以使用HIVE完成，但不能在PIG中完成，这是一种绕过输出的方式。

什么是PIG可以做的，而在HIVE中是不可能的?

位置引用-即使你没有字段名，我们也可以使用像$0这样的位置来引用第一个字段，$1用于第二个字段，等等。

另一个基本区别是，PIG不需要一个模式来写值，但HIVE需要一个模式。

您可以使用JDBC和其他方法从任何外部应用程序连接到HIVE，但不能使用PIG。

注意:两者都运行在HDFS (hadoop分布式文件系统)上，语句被转换为Map Reduce程序。

2015-03-29 04:32:59

其他回答

Pig-latin is data flow style, is more suitable for software engineer. While sql is more suitable for analytics person who are get used to sql. For complex task, for hive you have to manually to create temporary table to store intermediate data, but it is not necessary for pig. Pig-latin is suitable for complicated data structure( like small graph). There's a data structure in pig called DataBag which is a collection of Tuple. Sometimes you need to calculate metrics which involve multiple tuples ( there's a hidden link between tuples, in this case I would call it graph). In this case, it is very easy to write a UDF to calculate the metrics which involve multiple tuples. Of course it could be done in hive, but it is not so convenient as it is in pig. Writing UDF in pig much is easier than in Hive in my opinion. Pig has no metadata support, (or it is optional, in future it may integrate hcatalog). Hive has tables' metadata stored in database. You can debug pig script in local environment, but it would be hard for hive to do that. The reason is point 3. You need to set up hive metadata in your local environment, very time consuming.

2013-07-15 23:37:30

Pig允许在管道中的任何位置加载数据和用户代码。如果数据是流数据，例如来自卫星或仪器的数据，这一点可能特别重要。

Hive是基于RDBMS的，它需要首先导入(或加载)数据，然后才能对其进行处理。因此，如果您在流数据上使用Hive，您将不得不不断填充桶(或文件)，并在每个填充桶上使用Hive，同时使用其他桶来继续存储新到达的数据。

Pig也使用惰性求值。它使编程变得更加容易，人们可以用它来以不同的方式分析数据，比在像Hive这样的SQL类语言中更自由。因此，如果你真的想分析一些你拥有的非结构化数据中的矩阵或模式，并想对它们进行有趣的计算，使用Pig你可以走得很远，而使用Hive，你需要其他东西来处理结果。

Pig在数据导入方面更快，但在实际执行方面比像Hive这样的RDBMS友好语言要慢。

Pig非常适合并行化，因此它可能在数据集庞大的系统中具有优势，即在您更关心结果吞吐量而不是延迟(获得任何特定结果数据的时间)的系统中。

2014-03-22 14:04:13

Hive的设计是为了吸引一个熟悉SQL的社区。它的哲学是我们不需要另一种脚本语言。Hive支持用户选择语言的map和reduce转换脚本(可以嵌入到SQL子句中)。它在Facebook上被熟悉SQL的分析人员以及使用Python编程的数据挖掘人员广泛使用。在Pig中SQL兼容性的努力已经被放弃了，所以这两个项目之间的区别是非常明显的。

支持SQL语法也意味着它可以与现有的BI工具(如Microstrategy)集成。Hive有一个ODBC/JDBC驱动程序(这是一个正在进行的工作)，应该可以在不久的将来实现这一点。它还开始添加对索引的支持，这应该允许支持在这种环境中常见的向下钻取查询。

最后——这与问题无关——Hive是一个执行分析查询的框架。虽然它的主要用途是查询平面文件，但它没有理由不能查询其他存储。目前，Hive可以用于查询存储在Hbase中的数据(它是一个键值存储，就像大多数RDBMS内部的键值存储一样)，HadoopDB项目已经使用Hive来查询联邦RDBMS层。

2010-08-05 07:23:47

猪什么都吃!这意味着它可以使用非结构化数据。

Hive需要一个模式。

2015-02-20 17:55:36

从链接: http://www.aptibook.com/discuss-technical?uid=tech-hive4&question=What-kind-of-datawarehouse-application-is-suitable-for-Hive?

Hive不是一个完整的数据库。Hadoop和HDFS的设计约束和局限性限制了Hive的功能。

Hive最适合数据仓库应用，其中

1)分析相对静态的数据，

2)不需要快速响应时间，并且

3)当数据变化不迅速时。

Hive没有提供OLTP(在线事务处理)所需的关键特性。它更接近于OLAP工具，在线分析处理。因此，Hive最适合数据仓库应用程序，其中维护和挖掘大型数据集以获得见解、报告等。

2013-09-29 06:00:25

猪和蜂巢的区别?为什么两者都有?

推荐文章

最新文章

标签