Informatica ETL はデータ抽出に使用されており、複数の異なるデータベースからデータが抽出されるデータ ウェアハウスの概念に基づいています。
歴史
の インティウムから 多国籍ソフトウェア会社が ETL ツールを発明しました。この会社はマサチューセッツ州レキシントン郊外にあります。米国ではETLと呼ばれるGUIベースの並列処理ソフトウェアがフレーム化されています。
ETLツールの実装
1. 抽出
データはさまざまなデータ ソースから抽出されます。標準データ ソース形式には、リレーショナル データベース、フラット ファイル、XML、情報管理システム (IMS)、またはその他のデータ構造が含まれています。
即時データ検証は、ソースから取得したデータが特定のドメインで正しい値を持っているかどうかを確認するために使用されます。
2. 変身
ターゲット データ ソースを準備してロードするために、抽出されたデータに一連のルールと論理関数を適用しました。データのクリーニングとは、正しいデータをターゲット ソースに渡すことを意味します。
ビジネス要件に応じて、データに多くの変換タイプを適用できます。一部の変換タイプには、キー ベース、列または行ベース、コード化された値と計算された値、異なるデータ ソースの結合などがあります。
整数を文字列に変換する
3.ロード
このフェーズでは、データをターゲット データ ソースにロードします。
3 つのフェーズはすべて、お互いの開始または終了を待ちません。 3 フェーズはすべて並列実行されます。
リアルタイムビジネスでの使用
Informatica 社は、データ品質、データマスキング、データ仮想化、マスターデータ管理、データレプリカなどの ETL 用のデータ統合製品を提供しています。Informatica ETL は、さまざまなデータソースからデータを接続およびフェッチするために使用される最も一般的なデータ統合ツールです。
このソフトウェアにアプローチするためのいくつかの使用例を以下に示します。
- 組織は、既存のソフトウェア システムから新しいデータベース システムを移行しています。
- 組織内にデータ ウェアハウスをセットアップするには、データを本番環境からウェアハウスに移動する必要があります。
- これは、データを修正、検出、またはデータベースから不正確なレコードを削除するデータ クレンジング ツールとして機能します。
ETLツールの特徴
以下に、ETL ツールの重要な機能をいくつか示します。
1. 並列処理
意味不明
ETL は、並列処理の概念を使用して実装されます。並列処理は、複数のプロセスを同時に実行して実行されます。 ETL は、次の 3 種類の並列処理に取り組んでいます。
- 単一のファイルをより小さなデータ ファイルに分割する。
- パイプラインを使用すると、同じデータに対して複数のコンポーネントを同時に実行できます。
- コンポーネントは、同じジョブを実行するために異なるデータ上で同時に実行するために必要な実行可能プロセスです。
2. データの再利用、データの再実行、およびデータの回復
各データ行には row_id が提供され、プロセスの一部には run_id が提供されるため、これらの ID によってデータを追跡できます。チェックポイントを作成する際に、プロセスの特定のフェーズを完了するため。これらのチェックポイントは、タスクを完了するためにクエリを再実行する必要があることを示します。
3.ビジュアルETL
文字列ビルダー
PowerCenter と Metadata Messenger は高度な ETL ツールです。これらのツールは、ビジネス要件に応じて、より高速で自動化された影響力のある構造化データを作成するのに役立ちます。
解決策として、ドラッグ アンド ドロップ メカニズムを使用してデータベースとメタデータ モジュールを作成できます。データを自動的に構成、接続、抽出、転送し、ターゲット システムにロードできます。
ETLツールの特徴
ETL ツールのいくつかの属性は次のとおりです。
- データの接続性と拡張性が向上するはずです。
- 複数のリレーショナル データベースを接続できる必要があります。
- CSV 拡張データ ファイルをサポートする必要があるため、エンドユーザーはこれらのファイルを簡単に、またはコーディングなしでインポートできます。
- エンドユーザーがデータをビジュアルマッパーと簡単に統合できるように、ユーザーフレンドリーな GUI が必要です。
- これにより、エンドユーザーはビジネス要件に従ってデータ モジュールをカスタマイズできるようになります。
なぜETLが必要なのでしょうか?
データ ウェアハウスの作成中に、パターンや洞察を得るために分析できるように、異なるソースからのデータが 1 か所にまとめられるのが一般的です。これらすべてのソースからのデータに最初から互換性のあるスキーマがあれば問題ありませんが、そのようなことは非常にまれです。
jsオンロード
ETL は異種データを取得して同種にします。 ETL がなければ、さまざまなデータを分析してビジネス インテリジェンスを導き出すことは不可能です。
ETL ツールの製品とサービス
Informatica -ETL 製品およびサービスは、業務運営の改善、ビッグデータ管理の軽減、データの高度なセキュリティの提供、予期せぬ状況下でのデータ回復、ビジュアル データの開発および芸術的デザインのプロセスの自動化に使用されます。 ETL ツールの製品とサービスは次のように分類されます。
- ビッグデータを使用したETL
- クラウドを使用したETL
- SAS を使用した ETL
- HADOOP を使用した ETL
- メタデータを含むETL
- セルフサービスアクセスとしてのETL
- モバイルに最適化されたソリューションなど。
ETL ツールがこれほどトレンドになっているのはなぜですか?
ETL ツールには次のような特徴があり、トレンドになっています。
- ETL ツールはデプロイを正確かつ自動化します。
- 新しいテクノロジーを導入するリスクを最小限に抑えます。
- 高度に安全なデータを提供します。
- それは自己所有です。
- これには、データ障害からの回復が含まれます。
- データの監視とメンテナンスを提供します。
- 魅力的で芸術的なビジュアルデータ配信が可能です。
- 集中型およびクラウドベースのサーバーをサポートします。
- これは、データの具体的なファームウェア保護を提供します。
ETL ツールの副作用
組織は継続的にデータ統合ツールに依存しています。これは機械であり、プログラムされた入力を受け取った後にのみ機能します。
システムが完全にクラッシュするリスクがあり、それはデータ回復システムがいかに優れたシステムで構築されているかを物語ります。単純なデータを悪用すると、組織に多大な損失が生じる可能性があります。