データ分析基盤は、データの蓄積・加工・分析など一貫した工程を行うプラットフォームです。特にビッグデータを今後ビジネスで活用するためには、なくてはならないインフラといえます。
一方、データ分析基盤の機能は、似たような要素で構成されていることから、理解しづらい面があります。そこで、各機能の違いや、今後、基盤そのものがどのように進化するか、未来予測を含めてお伝えします。
データ分析基盤とは?
データ分析基盤とは、データを蓄積管理し、分析する機能を持つシステムで、特にビッグデータの活用に使われます。
もし、データ分析基盤がないとすると、ばらばらのアプリケーション上に蓄積したデータを抽出、加工し、さらに分析も別のアプリケーションで行うことになり、大量のデータを扱うには非効率です。
データ分析基盤は、1つの基盤にデータを統合して蓄積・加工・分析を1か所で行えるシステムとして、ビッグデータの活用には必須と考えられています。IoT機器からもデータを集約することができるので、製造業などの現場とオフィスをつなぐ基盤にもなります。
データ分析基盤の主な機能
データ分析基盤は、いくつかの要素・機能から成っています。基盤の構成、工程の順にご紹介します。
データレイク
データレイクは、湖のように大量のデータを保管する役割をします。
ストレージリポジトリのことであり、構造化・非構造化にかかわらず、データを保存することができます。ローデータや多種類のアプリケーションにより収集・取得されたデータも同じレベルでとりあえず保管し、破壊されないようにしておく機能があります。
データウェアハウス
データウェアハウスは、データレイクのデータを一定の構造化データにして保管する場所です。データの倉庫=データウェアハウスです。
倉庫で保管されるもののように、分類され、保存されています。
しかし、データウェアハウスにあるデータからすぐに分析ができるかというと、そうではありません。データウェアハウスは、まだ大規模なデータの集積であり、構造化の度合いも特定の目的に合わせたものではありません。
特定の分析のために供することができるデータにするには、次にご紹介するデータマートに保管されるように加工しておく必要があります。
データマート
データマートは、特定のユーザーグループの、特定の分析目的に供されるように加工されたデータを保管する機能を持ちます。利用しやすく加工されたデータベースであり、データウェアハウスよりも小さなデータ量を持つものです。
データウェアハウスの下位構造(サブセット)であるデータマートを「従属型データマート」といい、データウェアハウスを持たないデータマートを「独立型データマート」といいます。さらに、従属型と独立型を使い分ける構造を「ハイブリッドデータマート」と呼びます。
データ分析基盤を選ぶポイント
データ分析基盤の導入にあたり、どのように選ぶのが適切でしょうか。選ぶときに注目したいポイントを解説します。
拡張性が高いか
データ分析基盤を選ぶときに注意したいのは、今後のデータ量の増加に備えなければならないということです。拡張性が高いものを選んでおくと、データ量の増加にも耐えることができます。
これは、ICT全体の進化により取得できるデータが増えている、さらに、データの分析や加工により新しいデータが手元で増える、という2つの要因によります。拡張性が低い場合は、近い将来、違うシステムをさらに基盤として導入する必要性も生じかねません。
臨機応変な対応と柔軟性
アプリケーションの進化に伴い、受け入れるデータの種類は今後も増えていくことが予想されるため、データ受け入れの形式や量において、臨機応変な対応と柔軟性の確保が必要です。
また、以前から有するレガシーシステムのデータも、できるだけ迅速に基盤に統合できるようにしたいものです。API連携でもサーバ連携でも、基盤にデータを受け入れられるほか、クラウドベースの基盤を使うと量的にも無限に受け入れることができます。
データ加工ツールであるETLツールを使った連携に比べ、APIを利用した連携では、リアルタイムのデータの受け入れ・修正・変更も行いやすくなり、常に正確でフレッシュなデータを利用することができます。
スピード感のある分析
スピード感のある分析も基盤選びには重要な要素です。過去を振り返るのではなく、常に最新値をデータとして活用し、意思決定を行えることはスピーディーな経営に直結します。
そこで、処理能力が優れていること、ストリーミングデータの分析はタイムラグをできるだけ少なくして行えることなど、分析機能は「スピード重視」にすることが選定のコツです。
属人的にならないようにする
データ分析には高度なスキルが必要です。属人化を可能な限り防ぎ、特定の従業員の退職でデータ活用ができなくなるリスクは避けなければなりません。
設定などのやり方を習得すれば、誰でも分析業務を進められるようにすることがシステム導入の目的です。また、データ分析基盤は、操作・設定が比較的容易なものと、高度な技術が必要なものがあります。属人化を防ぐには、容易に操作ができた方が効果的と考えられます。
データ分析基盤の今後の傾向
データ分析基盤の選定の際は、近未来を予測しながら臨むと失敗が少ないでしょう。現在のデータ分析基盤の在り方から次のような予測ができるので、導入の参考にしてください。
クラウド化の増加
データ分析基盤は、近年クラウド化が増加しています。データ量が増加することを考えると、クラウドは保管できるデータ量に制限がないという点で優れていることが主な理由です。
それだけでなく、メンテナンスやトラブルシューティングは基本的にベンダー側で行うという点がクラウドの大きなメリットです。クラウドベースの最新の基盤を導入しながら、一方で人件費を中心とするコスト削減につなげることができます。
ストリームデータ処理の利用加速
ストリームデータをリアルタイムで処理することができる「ストリームデータ処理」の利用が、今後は加速すると考えられます。
すでに、気象や施設管理などの分野でストリームデータ処理が実用化されています。データベースにデータを留めずリアルタイムで処理するので、基本的にデータの保管が必要ありません。「処理の高速化」「データ保管にかかる工数の削減」「保管ストレージにかかるコストの削減」などが期待できます。
未来予測を自動生成
既存データから未来を予測する基盤の開発・導入が進んでいます。未来予測は、過去のデータをもとにシナリオとロジックの組み合わせで未来予測値を計算する、機械学習によりAIが予測する、などの方法があります。
現時点のイベント分析・予測に加え、予測結果を自動で生成し、多要素の未来予測を行う動きが今後加速していくと思われます。中でも、相互予測に整合性を持たせ、高度な未来予測を行う4Dデジタル基盤の開発が行われています。実用化されると、自動運転や災害予知などに活かされる予定で、研究開発と共に一部で実証実験も行われています。
まとめ
データ分析基盤は、データを蓄積管理・分析するシステムで、近年クラウド化がさらに進んでいます。企業が収集したビッグデータによる分析から、高度な未来予測もできるようになる大規模な基盤まで開発されています。
クラウドプラットフォームによるデータ分析基盤は比較的に低コストで導入でき、大企業だけでなく、中小企業でも次世代への投資として徐々に導入が行われています。Oracle Cloudもクラウドベースのデータ分析基盤の1つです。未来予想図を競合他社より早く手に入れるためにも、ぜひ導入をおすすめします。
- カテゴリ:
- データ活用
- キーワード:
- データ基盤