この記事では、IoTを推進する上で重要なデータドリブン型システム実現の検討課題、実現のためのデータ分析基盤であるデータレイクについて、ポイントを絞って紹介します。

はじめに

ソフトウェア、いわゆるITを使って既存のビジネスに対して侵入し、その領域を食いつぶしていくような企業が出てきています。ネットスケープ社を作ったマーク・アンドリーセン氏が「Software is eating the world」ということを言いましたが、この言葉はまさに的確に今の状況を表現しています。
海外の製造業においては、自社の製品の利用者と、ソフトウェアの技術をどう開発して結び付けていくか、既存のビジネスとITをどう紐づけていくか、といったことが多く取り組まれています。
そういった取り組みは、デジタル革命やデジタルトランスフォーメーションというような表現で、一般の企業の皆さんにも認識されつつあります。このデジタル革命をどう進めていくのかを、ITインフラや、人材、組織という観点で考えていく必要があります。

デジタル革命で打ち勝つためのサイクル

デジタル革命で競争に打ち勝つために、まずデータを貯める器や、ビックデータと言われるような大量のデータを貯めて分析するような仕組み。図1でのアナリティクスの取り組みがまず必要です。次は、アナリティクス通じて導き出された知見を、どのようにビジネスの方にフィードバックしていくかです。つまり、アプリケーションをどう連動させて、顧客のUX、CXに近づけていくかという観点で、アプリケーションの開発が重要な要素になります。どのように必要なアプリケーションを素早く、タイム・トゥ・マーケットを短縮して市場に投入していくかが大きなポイントになります。
また、開発したアプリケーションは一度投入するだけでは不十分であり、その投入されたアプリケーションを何度も何度もより良いものに作り直していく、もしくはバグが出たらそれをすぐに修正して提供するなど、開発したアプリケーションを何度も本番環境にデプロイできるようなプラットフォームが必要になります。
更に、これらのプロセスを、何周もスピード感を持って実施していくことが、これからのデジタルトランスフォーメーションで必要なことです。

ここでは、このサイクルの中の、アナリティクスにフォーカスをして解説していきます。

98f4dd28ef6c20655aeaaeba37b21b84d1766b12
図1 デジタル革命で打ち勝つためのサイクル

  IoT時代のビジネスは最適化型から予測型に

IoT時代におけるこれからのビジネスは、最適化型から予測型に移行していくと考えられます。一方、ITプラットフォームにおけるデータ分析基盤の観点では、データをどう取り込んで、流れてくるデータをリアルタイムに処理していくという、リアルタイム系が需要になってきます。
更に、データ分析系で考えると、いわゆる深層学習(ディープラーニング)だとか機械学習と言うようなキーワードも、非常に大事になってきます。
このような背景がある中で、現在はどのような分析基盤が必要になるのかを紹介していきます。

データレイク構想が実現するデータ分析基盤

デジタルトランスフォーメーションを実現するために、今後備えるべきデータ分析のためのアーキテクチャを、データレイクアーキテクチャと呼んでいます。
図の左にある、ファストデータや構造化データと呼んでいる様々なデータがあります。これらのデータを取り込む先として、Hadoopをベースとした、スケールアウトして容量と性能をリニアに増やしていけるような仕組みを導入し、データを貯めていくというのがまず第1になります。
次に、フロントのユーザアプリケーションの要件に応じて、貯めたデータを処理していくエンジンを使い分けられるようなアーキテクチャを備えていく必要があります。ここでは、Hadoopという技術が非常に重要になってきます。Hadoopによって、大量のデータを非常に安価にコスト効率よく貯めることができるようになってきました。
Hadoopのファイルシステムにデータを貯めて、処理する要件に応じて、更に適用する技術を使い分けて行きます。例えばリアルタイムにデータを処理したい場合は、インメモリのデータグリッドの技術を適用したり、大量のデータに対してSQLで分析のクエリを流して処理をしていく場合は、並列分散型のデータベース、高速データベースを適用したり、SQL on Hadoopと言ったような技術を使うなどです。
Pivotalでは、このように大量のデータを貯めて、要件に応じてデータを処理できるような技術を包括的に提供しています。

Fb8943059c86e974042b4b3304689f2cd28be05c
図2 データレイク構想が実現するデータ分析基盤

データレイクのこれから

最新アーキテクチャのデータレイクに対して、以前はエンタープライズ・データウェアハウスという概念がありました。これは、事前に利用目的を決めて、主にデータベースにデータを格納するというアーキテクチャでした。もちろん、今でもこのアーキテクチャは使われていますが、これに対してデータレイクというのは、現時点で何に使うか分からないが、後々使う可能性がある、もしくは処理の方法はまだ見つからないが、今貯めておかないと、後から探しにくいようなデータ、生データを貯めておける基盤です。
このデータレイク自体は、概念が出てきて3年ほど経ちますが、さらに進化しており、データレイクの前段にストリーム処理のエンジンを置く仕組みが出て行きています。これは、特にセンターデータに対して有効です。センサーデータとして垂れ流されてくるデータを、必要に応じて簡易的に処理をする、例えばモバイルデバイスにプッシュするなどした後、必要なデータをデータレイクの方に貯めるような、こういったストリーム処理のエンジンをデータレイクの前に置いて処理を行う事例が増えています。