logo

ハイブとは

Hive は、構造化データの分析に使用されるデータ ウェアハウス システムです。 Hadoop 上に構築されています。 Facebookによって開発されました。

Hive は、分散ストレージに存在する大規模なデータセットの読み取り、書き込み、管理の機能を提供します。 HQL (Hive クエリ言語) と呼ばれる SQL のようなクエリを実行し、内部で MapReduce ジョブに変換されます。

Hive を使用すると、複雑な MapReduce プログラムを作成するという従来のアプローチの要件を省略できます。 Hive は、データ定義言語 (DDL)、データ操作言語 (DML)、およびユーザー定義関数 (UDF) をサポートしています。

グレートアンドラ

ハイブの特徴

Hive には次の機能があります。

  • Hive は高速でスケーラブルです。
  • これは、MapReduce または Spark ジョブに暗黙的に変換される SQL のようなクエリ (つまり、HQL) を提供します。
  • HDFS に保存されている大規模なデータセットを分析できます。
  • プレーン テキスト、RCFile、HBase などのさまざまなストレージ タイプが可能になります。
  • インデックス作成を使用してクエリを高速化します。
  • Hadoop エコシステムに保存された圧縮データを操作できます。
  • ユーザーがその機能を提供できるユーザー定義関数 (UDF) をサポートします。

Hive の制限事項

  • Hive はリアルタイム データを処理できません。
  • オンライントランザクション処理用に設計されていません。
  • Hive クエリには長い待ち時間が含まれます。

ハイブとブタの違い

ハイブ
Hive はデータ アナリストによってよく使用されます。 Pig はプログラマによってよく使用されます。
SQL のようなクエリに従います。 データフロー言語に従います。
構造化データを扱うことができます。 半構造化データを扱うことができます。
HDFS クラスターのサーバー側で動作します。 HDFS クラスターのクライアント側で動作します。
Hive は Pig よりも遅いです。 Pig は Hive よりも比較的高速です。