企業内のデータ資産を分析し、今後のビジネスに活用していくという考え方は、今では当たり前のものとなっています。
これからデータ基盤の構築について学びたい方、また、データ構築に関する知識を習得したい企業担当者に向けて、構築の過程で重要な役割を果たすデータ基盤の設計パターンについて解説します。各パターンのメリットとデメリットについても比較し、適切なデータ基盤の整備方法について考えていきましょう。
データ基盤の設計とは?
そもそもデータ基盤とは、分析等に利用するためのデータを蓄積して、必要に応じて取り出し活用することを目的としたシステム群のことを指します。それを踏まえた上で、データ基盤の設計とは、データ構築全体においてどのような意味を持つのでしょうか。
データ構築のプロセスのひとつ
データ基盤における設計は、データ構築のプロセスのひとつです。詳しく説明すると、データ構築には、調査、設計、開発、運用・保守のステップがあります。はじめに要件定義を綿密に行い、全体の目的と用途を決定します。その後、データ基盤の設計フェーズで、要件を満たすことのできるデータの収集方法からシステム構造、ツール選定、運用・保守の方針までを検討し、設計していく必要があります。
データ基盤設計の種類
データ基盤設計は、大きく3パターンに分けることができます。
「分散型」は、分析のためのデータベースが複数存在し、それぞれが独自にデータを管理しながら複雑にデータ連携を行います。
「統合型」では、複数データベースを分析する機能がひとつの製品に集約されます。
「データレイク型」では、複数のシステムから収集したビッグデータを構造化せず、そのままの形式で保存しておき、必要に応じて変換し活用できます。
既存のリソースと目的とする形態を考慮し、どのパターンを採用するか検討が必要です。
パターン①分散型
日本企業において、もっともスタンダードな設計パターンが「分散型」です。組織や業務部門ごとにシステムが複数存在し、それぞれが分散して稼働しています。個別に最適化され、それぞれで完結しているケースが大半で、移行には十分な計画が必要です。
分散型の特徴
分散型データ基盤の特徴は、メッシュ型の構成です。
複数のデータベースを運用する組織の中で、一度にすべての業務を新たな基盤に乗せ換えることは容易ではありません。既存システムはそのままに、一部業務をクラウド化して新しいデータベースを構築し、データ連携を行うといったことを検討する企業も多く、分散型はそういった運用に向いています。
連携のためのバッチや障害対応など、システム管理者の負荷が高くなりがちな設計パターンでもあります。
分散型のメリット・デメリット
分散型のメリットは、既存システムなどはそのままで、必要なデータ基盤を追加構築できることでしょう。他部門を巻き込むことなく、新しいデータ基盤を最短で構築できます。
それゆえのデメリットとして、部門間連携がうまくいかず、ひとつのデータをそれぞれの業務上で形を変えながら運用し続ける、サイロ化のリスクは払拭されません。企業全体でデータ活用を推進する場合、サイロ化を防ぎ、データ活用を最適化することが課題として残ります。
パターン②統合型
2つ目の設計パターンは、統合型です。分散して存在するデータベースを統合して一元管理する手法で、複雑な連携の手間がかかりません。ただし専用のハードウェアを使うなど制約があり、設計の自由度は下がります。
統合型の特徴
ハードウェアメーカーが提供するアプライアンス製品では、サーバにOSやミドルウェアまでが事前に導入され出荷されているものが存在します。
事前パッケージ型とも呼ばれますが、各組織でこのような製品を統一して利用できれば、新たなデータベースを追加する場面でシステム構築の難易度が低くなり、運用や保守も安心して行うことができます。複数データベースを統合して利用できる仕様になっているため、データ連携についての設計負荷が下がります。
統合型のメリット・デメリット
統合型のメリットは、全体最適化がしやすいことです。散在する既存システムをリプレースのタイミングなどで順に移行していくことで、いずれは全体最適化されたデータベースが完成することになります。前述した専用ハードウェアを購入して構築することもできますが、クラウドで提供されるものもあり、導入の難易度は低くなります。
デメリットはコストがかかることで、導入には経営視点での判断が必要となります。そのため、上役の承認を得る必要があることから、既存システムからの移行は簡単ではありません。
パターン③データレイク型
3つ目のデータレイク型は、近年増えてきている設計パターンです。保存形式に関わらず、すべての構造化データと非構造化データを合わせて一元的に保存し、管理できるリポジトリで、分析に最適な形式に変換して結果を返します。
データレイク型の特徴
データレイク型は、ビッグデータを生のまま保管でき、加工しながら活用できることが特徴です。オンプレミスでもクラウドでも構築可能なクラスタ上で構成され、ストレージ容量を気にせずにデータを蓄積できるのです。
いつどんなデータをどのような角度で分析する必要が出てくるか、すべてのパターンを事前に把握したうえでの設計を可能にし、必要時のデータ活用を実現するデータレイク型は今後さらに普及していく方式といえます。
データレイク型のメリット・デメリット
生データを余すことなく保管できることがメリットで、分析に必要な形にあらかじめ成形してから保存するといった、設計と加工の工程が必要ありません。複数の組織でデータレイクのデータを取得して、それぞれが必要とする形に変換し利用できます。
デメリットとしては、一時データも含めたすべてのファイルを保存するため、蓄積量が膨大になり、検索に時間がかかり速度が低下するなどデータベースに負荷がかかる場合があります。
データ基盤設計のポイント
以上のように、データ基盤の設計には複数パターンがあり、それぞれにメリットとデメリットが存在します。導入企業に則した最適なデータ基盤の設計をどう進めていけばよいか、ポイントを確認していきましょう。
データの収集方法
データ収集方法の確立において、どのようなデータが自社において優良な材料として把握されるのか、また、収集し分析できるのかを知ることで、スムーズな設計につながります。さらに、オンプレミスやクラウドサービスなど複数システムからデータを収集して分析に使用したい場合、それぞれのデータをどのような形で収集するかを第1に検討する必要があります。
企業の経営資産である重要データも多く存在するため、セキュリティの担保も不可欠です。また、システム開発において、テストとリリースを安定して実現するためのCI/CD環境の整備なども設計のポイントとして考慮しておく必要があります。
的確なツールの導入
データ基盤の構築とその設計には、以上のように様々な視点での要所が存在しています。すべてを自社で完結させるには難度が高く、目的に合ったツールとベンダー選びが重要となります。
統合型のデータ基盤を選定する環境が整っている場合を除き、クラウドサービスの利用を検討することが多くなるでしょう。セキュリティ、拡張性、可用性などの機能面と、データ収集方法などの運用管理、保守といった多くの要素を比較検討してツールの選定をしていく必要がありますが、その先に全体最適化されたビッグデータの活用が実現されます。
まとめ
本記事では、データ基盤の設計は主に3つに分類でき、それぞれのメリットとデメリットを踏まえて適切なツールを選ぶ必要があることをまとめました。データ基盤の設計をする上で、適切なツールの導入を検討することがデータ活用の最適化への必須事項といえるでしょう。
例えば、次世代クラウドインフラと呼ばれるOracle Cloudでは、オンプレミスとクラウドの良さを兼ね備えたデータ基盤を提供しています。Oracle Cloudは、オンプレミスの懸念点であるコスト面や、クラウドの懸念点であるセキュリティ面が払拭されているデータ基盤です。豊富な導入実績を持つシステムエグゼが手掛けるOracle Cloudへの移行サービスもありますので、検討してみてはいかがでしょうか。
- カテゴリ:
- データ活用
- キーワード:
- データ基盤