データマイニングにおけるCRISPとは何ですか

CRISP-DM は、データマイニングのための業界横断的な標準プロセスを表します。 CRISP-DM 手法は、データマイニングプロジェクトを計画するための構造化されたアプローチを提供します。これは堅牢で実証済みの方法論です。当社はそれに対する所有権を主張しません。私たちが発明したわけではありません。私たちは、アナリティクスを使用してビジネス上の問題を解決する際の、その強力な実用性、柔軟性、有用性をコンバーターとしています。これは、ほぼすべてのクライアントとのミーティングで貫かれる黄金の糸です。

このモデルは、理想化された一連のイベントです。実際には、多くのタスクが異なる順序で実行される可能性があり、多くの場合、前のタスクに戻って特定のアクションを繰り返すことが必要になります。このモデルは、データマイニングプロセスを通じて考えられるすべてのルートを取得しようとするわけではありません。

CRISP はどのように役立ちますか?

CRISP DM はロードマップを提供し、ベストプラクティスを提供し、データマイニングを使用した結果をより迅速に改善するための構造を提供します。これにより、企業がデータマイニングプロジェクトを計画および実行する際に役立ちます。

CRISP-DM のフェーズ

CRISP-DM は、データマイニングライフサイクルの概要をプロセスモデルとして提供します。ライフサイクルモデルは 6 つのフェーズで構成されており、矢印はフェーズ間の最も重要で頻繁な依存関係を示しています。フェーズの順序は厳密ではありません。そして、ほとんどのプロジェクトは、必要に応じてフェーズ間を行き来します。 CRISP-DM モデルは柔軟性があり、簡単にカスタマイズできます。

たとえば、組織がマネーロンダリングの検出を目的としている場合、特定のモデリング目標を持たずに大量のデータを選別することになるでしょう。モデリングの代わりに、財務データ内の疑わしいパターンを明らかにするためのデータ探索と視覚化に重点を置きます。 CRISP-DM を使用すると、ニーズに合ったデータマイニングモデルを作成できます。

これには、プロジェクトの典型的なフェーズ、各フェーズに関連するタスク、およびこれらのタスク間の関係の説明が含まれます。

フェーズ 1: ビジネスの理解

CRISP-DM プロセスの最初の段階は、ビジネスの観点から何を達成したいかを理解することです。組織には、適切にバランスを取る必要がある競合する目標や制約がある場合があります。このプロセス段階は、プロジェクトの結果に影響を与える重要な要素を明らかにすることを目的としています。このステップを無視すると、間違った質問に対して正しい答えを導き出すために多大な労力が費やされることになります。

プロジェクトの望ましい成果は何ですか?

目標を設定します。ビジネスの観点から主な目的を説明してください。他にも言及したい関連質問があるかもしれません。たとえば、主な目標は、顧客が競合他社に移行する可能性が高い時期を予測して、現在の顧客を維持することかもしれません。プロジェクト計画を作成する:データマイニングとビジネス目標を達成するための計画について説明します。計画では、ツールやテクニックの最初の選択など、プロジェクトの残りの部分で実行する手順を指定する必要があります。ビジネスの成功基準:ここでは、ビジネスの観点からプロジェクトが成功したかどうかを判断するために使用する基準を示します。これらは、理想的には具体的で測定可能である必要があります。たとえば、顧客のビートを一定のレベルに下げるなどです。ただし、場合によっては、関係についての有益な洞察を与えるなど、より主観的な基準が必要になる場合があります。

現状を評価する

グレーコード

これには、データ分析の目標とプロジェクト計画を決定する際に考慮する必要があるリソース、制約、仮定、その他の要素に関するより詳細な事実調査が含まれます。

担当者（ビジネス専門家、データ専門家、テクニカルサポート、データマイニング専門家）
データ (固定抽出、ライブデータ、倉庫データ、運用データへのアクセス)
コンピューティングリソース (ハードウェアプラットフォーム)
ソフトウェア (データマイニングツール、その他の関連ソフトウェア)

関連するビジネス用語の用語集は、プロジェクトで利用できるビジネス理解の一部を形成します。この用語集の作成は、有用な「知識の引き出し」と教育の実践です。
データマイニング用語の用語集が、ビジネス上の問題に関連する例とともに示されています。

データマイニングの目標を決定する

ビジネス目標は、ビジネス用語で目標を述べます。データマイニングの目標は、プロジェクトの目標を専門用語で示します。たとえば、ビジネス目標は、既存顧客へのカタログ販売を増やすことかもしれません。データマイニングの目標は、過去 3 年間の購入、人口統計情報 (年齢、給与、都市など)、およびアイテムの価格を考慮して、顧客が購入するウィジェットの数を予測することかもしれません。

ビジネスの成功基準:ビジネス目標の達成を可能にするプロジェクトの意図された出力について説明します。データマイニングの成功基準:プロジェクトの成果を成功させるための基準を定義します。たとえば、一定レベルの予測精度や、一定の「リフト」を伴う購入傾向プロファイルなどです。ビジネスの成功基準と同様に、主観的な言葉でこれらを説明する必要がある場合があります。その場合、主観的な判断を下した人物を特定する必要があります。

プロジェクト計画の作成

データマイニングの目標とビジネス目標を達成するための計画を説明します。計画では、ツールやテクニックの最初の選択など、プロジェクトの残りの部分で実行する手順を指定する必要があります。

1. プロジェクト計画: プロジェクトで実行されるステージを、その期間、必要なリソース、入力、出力、依存関係とともにリストします。可能であれば、データマイニングプロセスの大規模な反復 (モデリングフェーズと評価フェーズの繰り返しなど) を明示的に行うようにしてください。

プロジェクト計画の一環として、タイムスケジュールとリスクの間の依存関係を分析することが重要です。これらの分析の結果をプロジェクト計画に明示的にマークし、リスクが明らかになった場合はアクションと推奨事項を含めるのが理想的です。評価フェーズでどの評価戦略を使用するかを決定します。

プロジェクト計画は動的なドキュメントになります。各フェーズの終わりに、進捗状況と成果を確認し、それに応じてプロジェクト計画を更新します。これらの更新に関する具体的なレビューポイントは、プロジェクト計画の一部として含める必要があります。

2. ツールとテクニックの初期評価: 最初のフェーズの終わりに、ツールとテクニックの初期評価を行う必要があります。たとえば、プロセスのさまざまな段階でさまざまな方法をサポートするデータマイニングツールを選択します。ツールとテクニックの選択はプロジェクト全体に影響を与える可能性があるため、プロセスの早い段階でツールとテクニックを評価することが重要です。

人工ニューラルネットワーク

フェーズ 2: データの理解

CRISP-DM プロセスの第 2 フェーズでは、プロジェクトリソースにリストされているデータを取得する必要があります。データの理解に必要な場合、この初期収集にはデータの読み込みが含まれます。たとえば、データを理解するために特定のツールを使用している場合、データをこのツールにロードすることは完全に理にかなっています。複数のデータソースを取得した場合、それらをいつどのように統合するかを検討する必要があります。

初期データ収集レポート:取得したデータソース、その場所、取得に使用した方法、および発生した問題をリストします。発生した問題と達成された解決策を記録します。これは、このプロジェクトの今後の複製や、将来の同様のプロジェクトの実行に役立ちます。

データの説明

取得したデータの「全体」または「表面」特性を検査し、結果を報告します。

データ説明レポート:取得したデータについて、その形式、量、フィールドの正体、および発見されたその他の表面の特徴を含めて説明します。取得したデータが要件を満たしているかどうかを評価します。

データを探索する

この段階では、クエリ、データ視覚化、レポート手法を使用して、データマイニングの質問に対処します。これらには次のものが含まれる場合があります。

主要な属性の分布
ペアまたは少数の属性間の関係
単純な集計の結果
重要な部分集団の特性
簡単な統計分析

これらの分析は、データマイニングの目標に直接取り組むことができます。これらは、データの説明と品質レポートに貢献または改良し、さらなる分析に必要な変換やその他のデータ準備ステップにフィードすることができます。

データ探索レポート:最初の発見や最初の仮説、およびそれらがプロジェクトの残りの部分に与える影響など、データ調査の結果について説明します。必要に応じて、ここにグラフやプロットを含めて、興味深いデータサブセットのさらなる調査を示唆するデータ特性を示すことができます。

データ品質を検証する

データの品質を調べて、次のような質問に対処します。

データは完全ですか、それとも必要なケースをすべてカバーしていますか?
それは正しいですか、それとも間違いは含まれていますか? 間違いがある場合、その頻度はどれくらいですか?
データに欠損値はありますか?もしそうなら、それらはどのように表され、どこで発生し、どの程度一般的ですか?

データ品質レポート

データ品質検証の結果をリストします。品質に問題がある場合は、考えられる解決策を提案します。データ品質問題の解決策は通常、データとビジネス知識に大きく依存します。

フェーズ 3: データの準備

このプロジェクトのフェーズでは、分析に使用するデータを決定します。この決定を行うために使用する基準には、データマイニング目標に対するデータの関連性、データの品質、データ量やデータ型の制限などの技術的な制約が含まれます。

包含/除外の理論的根拠:含める/除外するデータとその決定の理由をリストします。

データをクリーンアップする

このタスクには、選択した分析手法に必要なレベルまでデータ品質を高めることが含まれます。これには、データのクリーンなサブセットの選択、適切なデフォルトの挿入、またはモデリングによる欠損データの推定などのより野心的な手法が含まれる場合があります。

nullpointerException

データクリーニングレポート:データ品質の問題に対処するためにどのような決定と行動をとったかを説明してください。クリーニング目的で行われたデータ変換と、それが分析結果に与える影響を考慮してください。

必要なデータを構築する

このタスクには、派生属性、新しいレコード全体、または既存の属性の変換された値の生成など、建設的なデータ準備操作が含まれます。

派生属性:これらは、同じレコード内の 1 つ以上の既存の属性から構築された新しい属性です。たとえば、長さと幅の変数を使用して、面積の新しい変数を計算できます。生成されたレコード:ここでは、まったく新しいレコードの作成について説明します。たとえば、過去 1 年間に購入しなかった顧客のレコードを作成する必要がある場合があります。生データにそのような記録が存在する理由はありません。それでも、特定の顧客がモデル化の目的で明示的に購入がゼロであることを表現することは理にかなっているかもしれません。

データを統合する

vlc メディアプレーヤーダウンロード youtube

これらのメソッドは、複数のデータベース、テーブル、またはレコードからの情報を組み合わせて、新しいレコードまたは値を作成します。

結合されたデータ:テーブルの結合とは、同じオブジェクトに関する異なる情報を持つ 2 つ以上のテーブルを結合することを指します。たとえば、小売チェーンには、各店舗の一般的な特性 (床面積、モールの種類など) に関する情報を含む 1 つのテーブルと、要約した売上データ (利益、前年からの売上の変化率など) を含む別のテーブルがあるとします。もう 1 つは、周辺地域の人口統計に関する情報です。これらの各テーブルには、ストアごとに 1 つのレコードが含まれています。これらのテーブルは、ソーステーブルのフィールドを結合して、ストアごとに 1 つのレコードを持つ新しいテーブルにマージできます。集計:集計は、複数のレコードまたはテーブルからの情報を要約することによって新しい値を計算する操作です。たとえば、購入ごとに 1 つのレコードが含まれる顧客の購入テーブルを、購入数、平均購入金額、クレジットカードに請求される注文の割合、アイテムの割合などのフィールドを含む新しいテーブルと顧客ごとに 1 つのレコードに変換します。プロモーション中など

フェーズ 4: モデリング

モデリング手法の選択: 最初のステップとして、使用する基本的なモデリング手法を選択します。ビジネス理解フェーズですでにツールを選択しているかもしれませんが、この段階では、特定のモデリング手法を選択することになります。 C5.0 によるデシジョンツリーの構築、または逆伝播によるニューラルネットワークの生成。複数の手法を適用する場合は、このタスクを手法ごとに個別に実行します。

モデリング手法:使用する基本的なモデリング手法を文書化します。モデル化の仮定:多くのモデリング手法では、すべての属性が均一に分布している、欠損値が許可されていない、クラス属性がシンボリックである必要があるなど、データに関する特定の仮定を立てます。行われた仮定をすべて記録します。

テスト設計を生成する

モデルを構築する前に、モデルの品質と有効性をテストするための手順またはメカニズムを生成する必要があります。たとえば、分類などの教師ありデータマイニングタスクでは、データマイニングモデルの品質尺度としてエラー率を使用するのが一般的です。したがって、通常はデータセットをトレーニングセットとテストセットに分割し、トレーニングセットでモデルを構築し、別のテストセットでその品質を推定します。

テスト設計:モデルのトレーニング、テスト、評価の意図された計画について説明します。計画の主な要素は、利用可能なデータセットをトレーニング、テスト、検証のデータセットに分割する方法を決定することです。

モデルの構築

準備されたデータセットに対してモデリングツールを実行して、1 つ以上のモデルを作成します。

パラメータ設定:どのモデリングツールでも、多くの場合、調整できるパラメーターが多数あります。パラメータ、その値、およびパラメータ設定を選択する根拠をリストします。モデル:これらはモデリングツールによって作成されたモデルであり、モデルに関するレポートではありません。モデルの説明:結果として得られるモデルを説明し、モデルの解釈について報告し、その意味に関して遭遇した問題を文書化します。

モデルの評価

ドメインの知識、データマイニングの成功基準、および必要なテスト設計に従ってモデルを解釈します。モデリングと検出技術の適用が成功したかどうかを判断し、後でビジネスアナリストやドメインの専門家に連絡して、ビジネスコンテキストでのデータマイニングの結果について話し合ってください。このタスクではモデルのみが考慮されますが、評価フェーズではプロジェクト中に生成された他のすべての結果も考慮されます。

この段階では、モデルをランク付けし、評価基準に従って評価する必要があります。ここでは、ビジネス目標と成功基準を可能な限り考慮する必要があります。ほとんどのデータマイニングプロジェクトでは、1 つの手法が複数回適用され、データマイニングの結果は複数の異なる手法で生成されます。

モデルの評価:このタスクの結果を要約し、生成されたモデルの品質 (精度などの観点から) をリストし、それらの品質を相互にランク付けします。パラメータ設定を修正しました:モデルの評価に従って、それらを修正し、次回のモデリング実行に向けて調整します。最適なモデルを見つけたと強く確信できるまで、モデルの構築と評価を繰り返します。そのようなすべての改訂と評価を文書化します。

フェーズ 5: 評価

結果を評価する: これまでの評価ステップでは、モデルの精度や一般性などの要素を扱いました。このステップでは、モデルがビジネス目標をどの程度満たしているかを評価し、このモデルが不十分であるビジネス上の理由があるかどうかを判断します。もう 1 つのオプションは、時間と予算の制約が許せば、実際のアプリケーションのテストアプリケーションでモデルをテストすることです。評価フェーズには、生成したその他のデータマイニング結果の評価も含まれます。データマイニングの結果には、元のビジネス目標に必ず関連するモデルと、元のビジネス目標に必ずしも関連しないが、さらなる課題、情報、または将来の方向性へのヒントが明らかになる可能性のあるその他すべての結果が含まれます。

データマイニング結果の評価:プロジェクトがすでに当初のビジネス目標を満たしているかどうかに関する最終的な声明を含め、評価結果をビジネスの成功基準にまとめます。承認されたモデル:ビジネスの成功基準に従ってモデルを評価した後、選択した基準を満たす生成されたモデルが承認されたモデルになります。

レビュープロセス

現時点では、結果のモデルは満足のいくものであり、ビジネスニーズを満たしているように見えます。データマイニング作業をより徹底的にレビューして、何らかの形で見落とされている重要な要素やタスクがないかどうかを判断することが適切になりました。このレビューでは、品質保証の問題も取り上げます。たとえば、モデルは正しく構築されましたか?使用が許可され、将来の分析に使用できる属性のみを使用しましたか?

プロセスのレビュー:プロセスのレビューを要約し、見逃したアクティビティと繰り返す必要があるアクティビティを強調表示します。

次のステップを決定する

ここで、評価結果とプロセスのレビューに応じて、どのように進めるかを決定します。このプロジェクトを終了して展開に進むのか、さらなる反復を開始するのか、それとも新しいデータマイニングプロジェクトをセットアップするのか?また、意思決定に影響を与える可能性がある、残りのリソースと予算を確認する必要があります。

可能なアクションのリスト:潜在的なさらなるアクションと、各オプションに賛成または反対する理由をリストします。決断：どのように進めるかについての決定をその根拠とともに説明してください。

フェーズ 6: 導入

導入を計画する: 導入段階では、評価結果を基に、導入の戦略を決定します。関連するモデルを作成するための一般的な手順が特定されている場合は、後の展開のためにこの手順がここに文書化されています。導入はプロジェクトの成功にとって非常に重要であるため、ビジネス理解フェーズで導入の方法と手段を検討することは理にかなっています。ここで、予測分析がビジネスの運用面の改善に役立ちます。

導入計画:必要な手順とその実行方法を含む、導入戦略を要約します。

計画の監視とメンテナンス

データマイニングの結果が日常のビジネスとその環境の一部となる場合、監視とメンテナンスは重要な問題になります。メンテナンス戦略を注意深く準備することは、データマイニングの結果が不必要に長期間誤って使用されることを避けるのに役立ちます。プロジェクトには、データマイニング結果の展開を監視するための詳細な監視プロセス計画が必要です。この計画では、特定の種類の展開を考慮しています。

モニタリングとメンテナンス計画:必要な手順とその実行方法を含む、監視とメンテナンスの戦略を要約します。

最終レポートを作成する

プロジェクトの最後には、最終レポートを作成します。導入計画に応じて、このレポートはプロジェクトとその経験の概要のみである場合もあります (進行中のアクティビティとしてまだ文書化されていない場合)、またはデータマイニング結果の最終的かつ包括的なプレゼンテーションである場合もあります。

最終レポート:これは、データマイニング作業の最終的な書面による報告書です。これには、これまでの成果物がすべて含まれており、その結果が要約および整理されています。最終プレゼンテーション:多くの場合、プロジェクトの後に会議が開かれ、そこで結果が顧客に提示されます。

プロジェクトのレビュー

文字列内の文字

何がうまく行ったのか、何が間違っていたのか、何がうまくいったのか、何が改善の必要があるのかを評価します。

体験ドキュメント:プロジェクト中に得られた重要な経験を要約します。たとえば、このドキュメントには、遭遇した落とし穴、誤解を招くアプローチ、または同様の状況で最適なデータマイニング手法を選択するためのヒントが含まれる可能性があります。理想的なプロジェクトでは、経験に関する文書には、プロジェクトの以前の段階で個々のプロジェクトメンバーが作成したレポートも含まれます。

TechCodeview

データマイニングにおけるCRISPとは何ですか?