データ基盤は、ビッグデータを一元管理し、分析するために必要です。データ処理を行うシステムであるデータ基盤は、「データレイク」「データウェアハウス」「データマート」をメインとした構成からなり、順に構築することでデータ活用を始めることができます。それぞれ似たような概念ですが、異なる機能を持っています。
ここではそれぞれの意味や機能、構築方法をご紹介します。今後、データ基盤やデータ活用の導入を進める方の参考になれば幸いです。
データ基盤の構築とは?
ビッグデータを活用するための前提となるデータ基盤について、各構成のシステムとその機能を中心に説明し、構築の具体的な方法について紹介します。
そもそもデータ基盤とは
データ基盤とは、さまざまなサイトやアプリケーションで収集したデータを蓄積し、分析などの必要がある際に取り出すことができるようにする処理システム群のことをいいます。
膨大なデータを整理して活用するシステムであり、システム群はデータレイク、データウェアハウス、データマートの流れで構成されます。
構造化データ・非構造化データに関係なく、蓄積や保存を目的にしている「データの湖」がデータレイク、分析の目的を持たせず、整理した大量のデータ群を保存する「データ倉庫」がデータウェアハウスとなります。
また、大量のデータを整理して分析に使える形式に加工・整理するデータベースのことをデータマートといいます。データマートは直訳すると「データの小売店」となります。データ活用を行う際は、データマートからデータを取り出して、分析に利用します。
データ基盤を構築する意味
データ基盤の構築には次のような意味があります。
- データ管理を一元的に行うことができる
- 素早いデータ分析が可能になる
データレイクはデータを加工せず、構造化しないまま保管します。これに対して、データウェアハウスは、倉庫に格納するための分類、加工をデータに施して保管します。
それぞれが保管庫であり、処理の工程も機能として保有しています。最終的に、データはデータマートで分析用に整理、分類、加工され、データマート内に格納されることになります。
基盤がないと、データは各部門のアプリケーションで別々に管理することになります。その結果、全体的な管理もバラバラになるため、データ分析までの工程や時間が増大し、データ活用を進めることが困難になります。
データ基盤構築のフロー
データ基盤を構築し、スムーズに運用できるようになるまでの流れとはどういうものでしょうか。構築フローについて具体的に解説します。
【フロー①】調査・計画
データ基盤構築の第一歩は調査と計画です。データを基盤に集約するために、どのアプリケーションのデータを基盤内に置くのか、その範囲の確定や、導入すべきシステムの機能・コストの調査を実施します。その調査をもとに、データ基盤を運用するための体制を計画し、稼働見通しを立てるなど、調査・計画を中心とする準備作業を行います。
調査の本質は必要な情報の収集で、各部署の協力が必要です。導入プロジェクトと業務体制の計画性がカギとなります。
【フロー②】設計
次の工程は、システムの設計・構築です。データマート=データベースを構築することが最終目標です。
データレイクとデータウェアハウスのそれぞれにデータ加工機能を持たせ、活用するデータをデータベースに落とし込みます。加工用のシステムをELT(Extract, Load ,Transformation) と呼んでいます。
各アプリケーションのデータをどのようにデータレイクに集約するのか、データウェアハウスとデータベース間の処理をどのようにして行うのか、構造や運用方法、データ分析のための環境を設計・構築します。
ネットワークでデータを集約する必要もあるので、通信やセキュリティに関する設計も同時に行います。
【フロー③】開発
基盤の設計データをもとに、各種システム・アプリケーションの開発を行います。最終目標であり、メインの作業となるのがデータベースの作成ですが、データレイクとデータウェアハウスの構造も開発工程で実際に構築し、確定させます。また、ELTを行うツールも業務用のアプリケーションをもとにプログラム開発を行います。
テスト工程をもとに処理の速度、正確性などの検証を行い、実際に基盤上のデータが正常に処理されるかを確認し、必要であれば都度修正を行い、最適化を図ります。
【フロー④】保守・運用
開発したシステムには保守と運用が必要です。あらかじめ体制と業務のルールを決めておき、データ基盤にトラブルが起こった場合の対応や、運用に必要な作業の管理と監視を行います。
実際に起こるトラブルや、必要な監視ツールの選定に対応するため、オペレーションのフローや運用体制は基盤を動作させ、実際に運用しながら決めていきます。
データ基盤構築のやり方
データ基盤の構築は、自社開発で行う、あるいは、サービスを提供している会社のオンプレミスやクラウドベースのシステムを丸ごと導入して自社開発を最小限にする、などの方法があります。ここでは、代表的な構築方法を説明します。
自社開発で行う
自社内でデータ基盤構築を行います。オンプレミスのサーバやシステムを準備して自社内ですべて構築する方法と、一部にクラウドシステムを利用して構築するなど外部リソースに頼る方法などがあります。
しかし、双方とも自社の情報システム部が時間とコストをかけて構築する方法になるので、準備・開発・テストの期間や、場合によっては億単位の開発費用がかかるなど、会社規模によっては難しい場合があります。
クラウドプラットフォームを使う
これに対して、クラウドプラットフォームを使い、自社での開発を基本的に行わず、運用もベンダーに任せる方法があります。自社に情報システム部門がない、開発する技術力や予算がない、といった悩みに応えられるため、近年、採用が増えています。
コスト削減にもつながるこの方法では、会社の体制を問わず、データ活用を行うことが可能です。システムエグゼではOracle Cloudを活用したデータ基盤・プラットフォームを提供しているので、予算や工数、人材面で自社開発が難しい会社でも、導入が可能です。
データ基盤構築時のポイント
データ基盤を構築するにあたり、ポイントを知っておかないとシステム運用やデータ活用が難しくなるため、念頭に置いておくべき部分について解説します。
データアセスメントの実施
そもそもデータは、質・量ともにそろえなければ、分析に役立てることができません。データアセスメントは分析にデータが耐えられるかを評価する工程ですが、これが不十分であると、基盤開発・分析ともに意味が半減してしまいます。
また、開発工程がうまく行ったとしても、データが中途半端で分析が不正確になってしまうことが想定されます。基盤を通じて処理するに足りるデータの質と量を確保できるのか、専門家も交えて慎重に検討するべきです。
データスキーマ運用
データスキーマは、簡単にいうとデータの加工のフォーマットやデータベースの設計図のことをいいます。スキーマをどのように設定するかは、分析のありかたやビジネスニーズによります。
スキーマが変更できず柔軟に設定できない、処理のスピードがスキーマにより大きな差が出る、スキーマが増えた場合にシステムの限界が容易に生じてしまう、などの問題が起こると、データ活用のボトルネックになります。こうした問題が生じないよう、システム選定時から見通しを立てるべきです。
一方通行のデータづくり
データの流れを一方通行にすることがデータ基盤のスマートな設定につながります。極端ですが、データレイクから各アプリケーションにデータを戻して修正させるような設計をし、データの流れが複雑化し誰にも分からなくなってしまったような話も実際に起こっています。
逆方向に行けるようにすることは、全体のデータのずれを起こすことも多く、復旧が難しいことが知られています。その点、処理の流れが一方通行で定まっていると、エラーが生じても復旧は技術的に容易です。
まとめ
データ基盤の主な構成は、データレイク、データウェアハウス、データマートから成り、ELTによるデータ加工がその間に入ります。
データ基盤の導入は、効率的なビッグデータ分析のために必要不可欠です。従来はオンプレミスを採用している企業もありましたが、近年ではコストや時間のかかる自社開発よりも、手軽かつ比較的低コストで導入・運用ができるクラウド基盤を導入する例が増えています。
Oracle Cloudなら、APIやサーバへの接続により、各種のアプリケーションを少ない工数で集約し、保守・運用までベンダーに任せることができます。会社の体制を問わず導入できるクラウドプラットフォームOracle Cloudの導入を、データ分析の第一歩として検討してはいかがでしょうか。
- カテゴリ:
- データ活用
- キーワード:
- データ基盤