データ分析の必要性は日々高まっていますが、「そもそもデータ分析をどのように行えばいいの?」と困っている方もいらっしゃるのではないでしょうか。データ分析の手法やプロセスを理解すれば、ビジネスにどうつなげていけばよいのかがイメージできるようになります。
そこで本記事では、標準的なデータ分析プロセスである「CRISP-DM」について詳しく解説していきます。
「ツールを導入したら終わり」ではないデータ分析
昨今はデータ活用が叫ばれ、データ分析の必要性が高まっています。しかし、「データ分析」という言葉だけが一人歩きし、ツールを導入してデータ分析を行えばすぐにビジネスが改善する、と考えている人が多いのが現状です。
実際は、「分析をどのようにビジネスにつなげるか」を考えることが重要なので、データ分析そのものよりも、前提となるビジネスへの理解が欠かせません。このデータ分析とビジネスへの展開を考えていく上で、指針となるのが「CRISP-DM」というデータ分析プロセスです。
データ分析プロセス「CRISP-DM」とは
「CRISP-DM」は「CRoss-Industry Standard Process for Data Mining」の略で、データ分析をどう進めていくべきかという、プロセスを標準化したものです。
1996年にTeradata、Daimler AG、NCR Corporationなどが主導したコンソーシアムで考案された後、その汎用性と柔軟性の高さから、様々なデータ分析作業で採用されています。
また、CRISP-DMのプロセスは6つに分かれており、順番通りに進めることで、ビジネスの改善につながる分析が可能になります。
ちなみに、CRISP-DMはウォーターフォールのように1つずつ完成させていくのではなく、必要に応じて前工程に戻り、試行錯誤しながら最適な結果を得ていくようになっています。
「CRISP-DM」によるデータ分析プロセス
ここからは、CRISP-DMにおける6つのプロセスの詳細と、活用するためのポイントを解説していきます。
ビジネスの理解:Business Understanding
始めに行うのは、データ分析を行う目的を明確にする「ビジネスの理解」です。データ分析に対する知識が少ない人は、データ分析を行う際に目的を決めず、データから有用な情報を得ようとする傾向があります。
しかし、目的を決めずに始めたデータ分析で求めている成果が得られることはほぼありません。そのため、データ分析で成果を得るには、目的と仮説を先に考えておき、データの裏付けが取れるか、という観点で行うことが重要です。
データ分析をデータサイエンティストなどに依頼するなら、この部分をしっかり理解してもらうようにしましょう。ちなみに、このフェーズで求められるのはデータ分析スキルではなく、マーケティングの知識となります。
データの理解:Data Understanding
2つ目のプロセスは、データが本当に使えるかを検証する「データの理解」です。手元にあるデータは、様々な手段で事象を観測し、数値として手に入ったものですが、データの品質や分布、数が分析の目的に対して十分だとは限りません。
得られたデータでは目的を達成できないのであれば、「ビジネスの理解」に戻り、目的を再設定します。これからデータを集めるのであれば、どんなデータが収集できるか、コスト面なども含めてどのように収集するかも考えた上で収集する必要があります。ビジネスの理解と同様に重要なので、必ずしっかり検討した上で次のプロセスに進んで下さい。
データの準備:Data Preparation
3つ目のプロセスは、データを分析しやすいよう整える「データの準備」です。生データは、分析に適していない形式や内容になっていることが多く、そのままでは分析が正しく行えません。
そのため、例えばデータに欠損があった場合、その欠損自体に意味がある場合を除き、データを削除するか、意味のある数値に交換するといった前準備が必要となります。
データの整え方としては、以下のような方法があります。
- 欠損値、外れ値の処理:意味のないデータ欠損や外れ値を削除・補正する
- ダミー変数化:質的なデータを量的データに変換する
- サンプリング:データが多すぎる場合に一部を抽出する
- 特徴量の作成:目的を達成するために重要だと思われる数値を抽出する
- 数値の正規化:数値を最小0、最大1にスケーリングする
他にも様々なデータの整え方があるので、データの特徴ごとに最適な方法を理解しておくことが重要です。
モデルの作成:Modeling
データの準備が終わったら、「モデルの作成」に進みます。モデルとは、データを分析するアルゴリズムのことであり、下記のような方法があります。
- 相関分析
- 回帰分析
- バスケット分析
- クラスター分析
- ニューラルネットワーク
- 決定木分析
モデルそのものはライブラリとして準備されているので、モデリング自体にはそれほど時間は必要ありません。それぞれ長所・短所があり、データの種類によって最適な手法は変わるので、エンジニアの経験とノウハウが要求されます。
とはいえ、実際は複数の手法を試して最も精度が高かったモデルを採用することが多く、単体のモデルで求める精度に達しなかったときは、モデルを組み合わせて精度を上げることもあります。
なお、様々なモデルを試しても分析結果が求める精度に達しない場合は、データの準備が不十分である可能性が高いので、前の工程に戻りデータを整えなおしましょう。
モデルの評価:Evaluation
モデルの作成が終わったら、「モデルの評価」を行います。モデルの評価方法では、アルゴリズム面はもちろん、ビジネス面も重要です。
アルゴリズム面は、RMSE・再現率・適合率などの評価指標により適切に動作しているかの評価で、ビジネス面は、「ビジネスの理解」で定めた課題の解決に使えるかという観点からの評価となります。
特に、ビジネス面はしっかり評価しておかないと、次の工程でビジネスに反映できない、という問題が生じるので、マーケティング担当者にも評価してもらう必要があります。結果が不十分である場合は再度「モデルの準備」に戻り、データの内容やモデルを選択しなおした上で「モデルの作成」を繰り返します。
分析結果の実践:Deployment
満足する分析結果が得られたら、その結果をもとにビジネスに活かしていくのが「分析結果の実践」です。分析が上手く行っても、実際のビジネスに落とし込めなければ意味がないので、データ分析の担当者だけでなく、マーケティング担当者と連携してビジネスでの具体的な施策を考えましょう。
また当然ですが、データ分析は一度ビジネスに適用して終わり、ではありません。適用後の結果をデータとして取得ならびに分析し、状況の変化に沿った、より効果的な施策を生み出していくことで、データ分析の効果を最大化していくことができるでしょう。
まとめ
今回は、標準的なデータ分析プロセス「CRISP-DM」における、データ分析の手順について解説しました。CRISP-DMの分析プロセスは6つに分かれており、それぞれの工程をしっかり行うことで、価値のあるデータ分析が実現できます。
ただし、それぞれのプロセスに的確に対処するには、データ分析における豊富な知識と経験が欠かせません。データ分析の知見がなく、どのように進めていいか分からない場合は、システムエグゼが提供する「次世代データ分析サービス」の利用をおすすめします。
データ収集の基盤作りからモデリングの提言までサポートするため、データ分析に関する知見がなくとも、ビジネスの改善につなげることができるでしょう。
- カテゴリ:
- データ活用
- キーワード:
- データ分析