CRISP-DM は、データ マイニングのための業界横断的な標準プロセスを表します。 CRISP-DM 手法は、データ マイニング プロジェクトを計画するための構造化されたアプローチを提供します。これは堅牢で実証済みの方法論です。当社はそれに対する所有権を主張しません。私たちが発明したわけではありません。私たちは、アナリティクスを使用してビジネス上の問題を解決する際の、その強力な実用性、柔軟性、有用性をコンバーターとしています。これは、ほぼすべてのクライアントとのミーティングで貫かれる黄金の糸です。
このモデルは、理想化された一連のイベントです。実際には、多くのタスクが異なる順序で実行される可能性があり、多くの場合、前のタスクに戻って特定のアクションを繰り返すことが必要になります。このモデルは、データ マイニング プロセスを通じて考えられるすべてのルートを取得しようとするわけではありません。
CRISP はどのように役立ちますか?
CRISP DM はロードマップを提供し、ベスト プラクティスを提供し、データ マイニングを使用した結果をより迅速に改善するための構造を提供します。これにより、企業がデータ マイニング プロジェクトを計画および実行する際に役立ちます。
CRISP-DM のフェーズ
CRISP-DM は、データ マイニング ライフ サイクルの概要をプロセス モデルとして提供します。ライフサイクル モデルは 6 つのフェーズで構成されており、矢印はフェーズ間の最も重要で頻繁な依存関係を示しています。フェーズの順序は厳密ではありません。そして、ほとんどのプロジェクトは、必要に応じてフェーズ間を行き来します。 CRISP-DM モデルは柔軟性があり、簡単にカスタマイズできます。
たとえば、組織がマネーロンダリングの検出を目的としている場合、特定のモデリング目標を持たずに大量のデータを選別することになるでしょう。モデリングの代わりに、財務データ内の疑わしいパターンを明らかにするためのデータ探索と視覚化に重点を置きます。 CRISP-DM を使用すると、ニーズに合ったデータ マイニング モデルを作成できます。
これには、プロジェクトの典型的なフェーズ、各フェーズに関連するタスク、およびこれらのタスク間の関係の説明が含まれます。
フェーズ 1: ビジネスの理解
CRISP-DM プロセスの最初の段階は、ビジネスの観点から何を達成したいかを理解することです。組織には、適切にバランスを取る必要がある競合する目標や制約がある場合があります。このプロセス段階は、プロジェクトの結果に影響を与える重要な要素を明らかにすることを目的としています。このステップを無視すると、間違った質問に対して正しい答えを導き出すために多大な労力が費やされることになります。
プロジェクトの望ましい成果は何ですか?
現状を評価する
グレーコード
これには、データ分析の目標とプロジェクト計画を決定する際に考慮する必要があるリソース、制約、仮定、その他の要素に関するより詳細な事実調査が含まれます。
- 担当者(ビジネス専門家、データ専門家、テクニカルサポート、データマイニング専門家)
- データ (固定抽出、ライブ データ、倉庫データ、運用データへのアクセス)
- コンピューティングリソース (ハードウェアプラットフォーム)
- ソフトウェア (データ マイニング ツール、その他の関連ソフトウェア)
- 関連するビジネス用語の用語集は、プロジェクトで利用できるビジネス理解の一部を形成します。この用語集の作成は、有用な「知識の引き出し」と教育の実践です。
- データ マイニング用語の用語集が、ビジネス上の問題に関連する例とともに示されています。
データマイニングの目標を決定する
ビジネス目標は、ビジネス用語で目標を述べます。データ マイニングの目標は、プロジェクトの目標を専門用語で示します。たとえば、ビジネス目標は、既存顧客へのカタログ販売を増やすことかもしれません。データ マイニングの目標は、過去 3 年間の購入、人口統計情報 (年齢、給与、都市など)、およびアイテムの価格を考慮して、顧客が購入するウィジェットの数を予測することかもしれません。
プロジェクト計画の作成
データ マイニングの目標とビジネス目標を達成するための計画を説明します。計画では、ツールやテクニックの最初の選択など、プロジェクトの残りの部分で実行する手順を指定する必要があります。
1. プロジェクト計画: プロジェクトで実行されるステージを、その期間、必要なリソース、入力、出力、依存関係とともにリストします。可能であれば、データ マイニング プロセスの大規模な反復 (モデリング フェーズと評価フェーズの繰り返しなど) を明示的に行うようにしてください。
プロジェクト計画の一環として、タイム スケジュールとリスクの間の依存関係を分析することが重要です。これらの分析の結果をプロジェクト計画に明示的にマークし、リスクが明らかになった場合はアクションと推奨事項を含めるのが理想的です。評価フェーズでどの評価戦略を使用するかを決定します。
プロジェクト計画は動的なドキュメントになります。各フェーズの終わりに、進捗状況と成果を確認し、それに応じてプロジェクト計画を更新します。これらの更新に関する具体的なレビュー ポイントは、プロジェクト計画の一部として含める必要があります。
2. ツールとテクニックの初期評価: 最初のフェーズの終わりに、ツールとテクニックの初期評価を行う必要があります。たとえば、プロセスのさまざまな段階でさまざまな方法をサポートするデータ マイニング ツールを選択します。ツールとテクニックの選択はプロジェクト全体に影響を与える可能性があるため、プロセスの早い段階でツールとテクニックを評価することが重要です。
人工ニューラルネットワーク
フェーズ 2: データの理解
CRISP-DM プロセスの第 2 フェーズでは、プロジェクト リソースにリストされているデータを取得する必要があります。データの理解に必要な場合、この初期収集にはデータの読み込みが含まれます。たとえば、データを理解するために特定のツールを使用している場合、データをこのツールにロードすることは完全に理にかなっています。複数のデータ ソースを取得した場合、それらをいつどのように統合するかを検討する必要があります。
データの説明
取得したデータの「全体」または「表面」特性を検査し、結果を報告します。
データを探索する
この段階では、クエリ、データ視覚化、レポート手法を使用して、データ マイニングの質問に対処します。これらには次のものが含まれる場合があります。
- 主要な属性の分布
- ペアまたは少数の属性間の関係
- 単純な集計の結果
- 重要な部分集団の特性
- 簡単な統計分析
これらの分析は、データ マイニングの目標に直接取り組むことができます。これらは、データの説明と品質レポートに貢献または改良し、さらなる分析に必要な変換やその他のデータ準備ステップにフィードすることができます。
データ品質を検証する
データの品質を調べて、次のような質問に対処します。
- データは完全ですか、それとも必要なケースをすべてカバーしていますか?
- それは正しいですか、それとも間違いは含まれていますか? 間違いがある場合、その頻度はどれくらいですか?
- データに欠損値はありますか?もしそうなら、それらはどのように表され、どこで発生し、どの程度一般的ですか?
データ品質レポート
データ品質検証の結果をリストします。品質に問題がある場合は、考えられる解決策を提案します。データ品質問題の解決策は通常、データとビジネス知識に大きく依存します。
フェーズ 3: データの準備
このプロジェクトのフェーズでは、分析に使用するデータを決定します。この決定を行うために使用する基準には、データ マイニング目標に対するデータの関連性、データの品質、データ量やデータ型の制限などの技術的な制約が含まれます。
データをクリーンアップする
このタスクには、選択した分析手法に必要なレベルまでデータ品質を高めることが含まれます。これには、データのクリーンなサブセットの選択、適切なデフォルトの挿入、またはモデリングによる欠損データの推定などのより野心的な手法が含まれる場合があります。
nullpointerException
必要なデータを構築する
このタスクには、派生属性、新しいレコード全体、または既存の属性の変換された値の生成など、建設的なデータ準備操作が含まれます。
データを統合する
vlc メディア プレーヤー ダウンロード youtube
これらのメソッドは、複数のデータベース、テーブル、またはレコードからの情報を組み合わせて、新しいレコードまたは値を作成します。
フェーズ 4: モデリング
モデリング手法の選択: 最初のステップとして、使用する基本的なモデリング手法を選択します。ビジネス理解フェーズですでにツールを選択しているかもしれませんが、この段階では、特定のモデリング手法を選択することになります。 C5.0 によるデシジョン ツリーの構築、または逆伝播によるニューラル ネットワークの生成。複数の手法を適用する場合は、このタスクを手法ごとに個別に実行します。
テスト設計を生成する
モデルを構築する前に、モデルの品質と有効性をテストするための手順またはメカニズムを生成する必要があります。たとえば、分類などの教師ありデータ マイニング タスクでは、データ マイニング モデルの品質尺度としてエラー率を使用するのが一般的です。したがって、通常はデータセットをトレーニング セットとテスト セットに分割し、トレーニング セットでモデルを構築し、別のテスト セットでその品質を推定します。
モデルの構築
準備されたデータセットに対してモデリング ツールを実行して、1 つ以上のモデルを作成します。
モデルの評価
ドメインの知識、データ マイニングの成功基準、および必要なテスト設計に従ってモデルを解釈します。モデリングと検出技術の適用が成功したかどうかを判断し、後でビジネス アナリストやドメインの専門家に連絡して、ビジネス コンテキストでのデータ マイニングの結果について話し合ってください。このタスクではモデルのみが考慮されますが、評価フェーズではプロジェクト中に生成された他のすべての結果も考慮されます。
この段階では、モデルをランク付けし、評価基準に従って評価する必要があります。ここでは、ビジネス目標と成功基準を可能な限り考慮する必要があります。ほとんどのデータ マイニング プロジェクトでは、1 つの手法が複数回適用され、データ マイニングの結果は複数の異なる手法で生成されます。
フェーズ 5: 評価
結果を評価する: これまでの評価ステップでは、モデルの精度や一般性などの要素を扱いました。このステップでは、モデルがビジネス目標をどの程度満たしているかを評価し、このモデルが不十分であるビジネス上の理由があるかどうかを判断します。もう 1 つのオプションは、時間と予算の制約が許せば、実際のアプリケーションのテスト アプリケーションでモデルをテストすることです。評価フェーズには、生成したその他のデータ マイニング結果の評価も含まれます。データマイニングの結果には、元のビジネス目標に必ず関連するモデルと、元のビジネス目標に必ずしも関連しないが、さらなる課題、情報、または将来の方向性へのヒントが明らかになる可能性のあるその他すべての結果が含まれます。
レビュープロセス
現時点では、結果のモデルは満足のいくものであり、ビジネス ニーズを満たしているように見えます。データ マイニング作業をより徹底的にレビューして、何らかの形で見落とされている重要な要素やタスクがないかどうかを判断することが適切になりました。このレビューでは、品質保証の問題も取り上げます。たとえば、モデルは正しく構築されましたか?使用が許可され、将来の分析に使用できる属性のみを使用しましたか?
次のステップを決定する
ここで、評価結果とプロセスのレビューに応じて、どのように進めるかを決定します。このプロジェクトを終了して展開に進むのか、さらなる反復を開始するのか、それとも新しいデータ マイニング プロジェクトをセットアップするのか?また、意思決定に影響を与える可能性がある、残りのリソースと予算を確認する必要があります。
フェーズ 6: 導入
導入を計画する: 導入段階では、評価結果を基に、導入の戦略を決定します。関連するモデルを作成するための一般的な手順が特定されている場合は、後の展開のためにこの手順がここに文書化されています。導入はプロジェクトの成功にとって非常に重要であるため、ビジネス理解フェーズで導入の方法と手段を検討することは理にかなっています。ここで、予測分析がビジネスの運用面の改善に役立ちます。
計画の監視とメンテナンス
データ マイニングの結果が日常のビジネスとその環境の一部となる場合、監視とメンテナンスは重要な問題になります。メンテナンス戦略を注意深く準備することは、データ マイニングの結果が不必要に長期間誤って使用されることを避けるのに役立ちます。プロジェクトには、データ マイニング結果の展開を監視するための詳細な監視プロセス計画が必要です。この計画では、特定の種類の展開を考慮しています。
最終レポートを作成する
プロジェクトの最後には、最終レポートを作成します。導入計画に応じて、このレポートはプロジェクトとその経験の概要のみである場合もあります (進行中のアクティビティとしてまだ文書化されていない場合)、またはデータ マイニング結果の最終的かつ包括的なプレゼンテーションである場合もあります。
プロジェクトのレビュー
文字列内の文字
何がうまく行ったのか、何が間違っていたのか、何がうまくいったのか、何が改善の必要があるのかを評価します。