お役立ちコラム

第4次産業革命って何だ?(第4回):ビッグデータの課題

今回は「ビッグデータ」がテーマです。インターネットの普及もあり、大量のデータが集まるようになりました。そこから新しい価値が生まれるという話です。

ビッグデータは2012年ころに一度ブームになりましたが、最近AI(人工知能)の機械学習に使われるようになって、再び注目されるようになってきました。また、2017年の情報通信白書に「ビッグデータ利活用元年の到来」という特集があったように、本格的な活用の時代に入ってきています。

1.ビッグデータとは何か

まず、ビッグデータとは何かから始めましょう。普段使っているこの「ビッグデータ」という言葉ですが、意外とその内容は知られていません。データベースとはどこが違うのでしょうか。

1)ビッグデータの定義

ビッグデータは「既存の一般的な技術では管理することが困難な大量のデータ群である」と定義されることが多いようです。例えば、Wikipediaには「一般的なデータ管理・処理ソフトウエアで扱うことが困難なほど巨大で複雑なデータの集合」とあります。

本レポートでは、ビッグデータを以下のように定義しておくことにします。

「これまでのデータベースの技術では管理が困難な巨大なデータ群」

これまでのRDB(リレーショナルデータベース)のようなデータベース技術に代わり、ビッグデータを管理する技術としてNoSQL(SQLを使わないデータベース管理)、Hadoop(分散処理)、インメモリDB(メインメモリを使うDB)などが開発されてきています。

 

ビッグデータから生まれる価値

ビッグデータが注目される理由は、そこから生まれる付加価値にあります。わかりやすい例として、スーパーやコンビニのPOSデータを考えてみましょう。POSデータは、誰が何をいつどれだけ購入したかという消費者の情報ですが、時間帯別や曜日別の売上を見てみたり、購買層を分析したりすることにより、顧客の購買行動の傾向を知ることができます。そして、商品の仕入れや店員の配置を最適化したり、顧客ごとにおすすめの商品をスマホに表示したり、といった戦略に活かすことができます。それによって売上が伸びたり、コストが削減できたりという付加価値が生まれるのです。

2)ビッグデータの特徴 - 3つのV

ビッグデータには以下の3つの特徴があると言われています。

 

Volume(量)

まず、文字通りビッグデータはデータの量が多いのですが、どのくらい多ければ「ビッグ」なのかを明確に定義したものはありません。業界では数十テラバイトから数ペタバイト以上のデータを「ビッグ」と呼んでいるようです。

 

Variety(種類)

2つめに、データの種類が多いということがあげられます。ビッグデータにはテキストデータだけでなく、音声データ、画像データ、映像データなど様々なデータが含まれています。

 

Velocity(頻度・スピード)

3つめの特徴は、データが発生する頻度が高いということがあります。データの流れるスピードが速いとも言えます。

 

これらの3つの特徴の英語の頭文字を並べて、「3つのV」と呼ばれています。この3Vモデルは、ガートナー社によって提唱されました。

https://web.archive.org/web/20110710043533/http://www.gartner.com/it/page.jsp?id=1731916

 

さらにV(Value:価値)を足して「4つのV」と言う人もいますが、価値はビッグデータの分析後に生まれるので、本レポートでは含めないことにしておきます。

 

3)ビッグデータの分類

ものごとを理解するためには、いくつかのカテゴリーに分けるというのが常套手段です。ビッグデータは以下のような分類が行われています。

 

構造化レベルによる分類

ビッグデータを構成する個々のデータには、きれいに構造化されたデータもあれば、構造化されていないデータ(非構造化データ)もあります。

 

生成主体による分類

データを生み出す主体に注目した分類もあります。ビッグデータはすべての経済主体(政府、企業、個人)から生み出されます。

4)注目されるビッグデータとデータサイエンティスト

最近ビッグデータが再注目されているのは、AIの機械学習に使われるようになったためです。AIは多くのデータを学習することによって判断の精度が高まり、正しい結果を導き出すことができるようになります。特にデータから特徴量を機械自身が発見できる「ディープラーニング」という技術が開発されてからは、さらに注目度が高まっています。

また、現在、ビッグデータの解析には「データサイエンティスト」と呼ばれる専門家が必要です。データサイエンティストには、データの収集から運用、分析から課題の解決まで幅広い知識とスキルが必要になります。ITの知識だけでなく、数学や統計学の知識も必要です。

2.ビッグデータの活用と市場の拡大

1)活用分野の広がり

ビッグデータは、まずWebサービスの分野で注目され出しました。Webを使ってキーワード検索をしたり、オンラインショッピングをしたり、友だちと会話をしたり、といった、人々の日常の活動から大量のデータが生み出されています。

そして、スマートフォンやICカード(流通系、交通系)が普及したことにより、人間によるデータの生成が加速されました。コンピュータを持って歩いてどこでも使うイメージです。

さらに、IoT時代に入り、さまざまなセンサーからの情報も集まるようになってきました。今度は人間だけでなく、機械からもデータが生まれている状況なのです。

 

2)ビッグデータの応用分野

ビッグデータの応用分野の中で特に注目されているのが以下のような分野です。

 

3)ビッグデータの市場の拡大

2016年のIDCの調査によれば、2020年には世界のビッグデータの市場規模は約20兆円になると予測されています。日本のビッグデータ市場も約3000億円規模に成長し、世界の1.5%くらいのシェアになると見られています。

3.ビッグデータの課題と解決策

ビッグデータの取り扱いには様々な課題があります。今回は、性能、品質、占有の3つの課題をとりあげます。

 

1)性能(処理時間)の問題

ビッグデータは集めるのにも処理するのにも時間がかかります。この処理時間をいかに短縮するかというのは大きな課題です。

 

ハードウェア的解決

性能問題をハードウェア技術で解決するというのは昔からよくありますが、ビッグデータの世界でもいくつかの技術革新が起きています。例えば、3Dグラフィックス用に開発されてきたGPU(Graphics Processing Unit)という演算装置がビッグデータの分析にも使われるようになってきています。GPUには3,000~4,000のコアが入っており、並列処理により高速演算を実現します。

また、現在開発競争が激化しているのが量子コンピュータです。量子力学的な「重ね合わせ」を用いて並列処理を行います。すでにカナダのD-Wave社が量子コンピュータを提供しています。また、量子コンピュータで使われる「量子アニーリング」という計算手法も注目されています。これは多くの候補から最善のものを選択する「最適化問題」に特化した計算方法です。

 

スパースモデリング

現在、筆者のチームが研究しているのが「スパースモデリング」という技術です。スパースモデリングとは、簡単に言えば足りないデータを補って分析を行う技術です。この技術を応用すると、最初からデータを間引いて収集して時間を節約することが可能になります。京都大学ではスパースモデリングを使ってMRIの画像診断をしたところ、80%のデータを省略しても全データを使ったのと同じような画像を得ることができたそうです。

 

エッジコンピューティングによる垂直分散

最近注目されているのがデータ処理の分散化です。ビッグデータのすべての分析を1つのコンピュータでやるのではなく、複数のコンピュータで分散して行うやりかたです。クラウドだけでなく、現場にもサーバを設置して分散処理を行う「エッジコンピューティング」が普及してきています。

2)データの品質の問題

 

GIGO

欧米のビジネススクールで教える経営用語の1つに「GIGO」(ジーアイジーオーと読む)というのがあります。Garbage In Garbage Outの略で、「インプットがごみなら、アウトプットもごみ」という意味です。

ビッグデータの世界でもGIGOが起こります。マイクロソフト社が開発したTayという人工知能は、一部のユーザがいたずらをして差別的な発言を覚えこませたら、本当に差別的な発言をする人工知能になってしまった、というのは有名な話です。(このサービスは1日で終わりになったそうです。)

また、IoTの分野でも2020年には約300億個の機器がインターネットに接続されると言われていますが、いつもどこかで故障が起きたり、電池が切れたりして、誤ったデータが送られたり、データが欠落したりするということになりかねません。

このように故意や過失や故障などにより、データの信頼性が失われることがあるのです。

 

データクレンジング

ビッグデータのデータの品質に関連して注目されている技術が「データクレンジング」です。これはもともとデータベースに保存されているデータの中から誤っているものを抽出し、修正や削除を行う技術でした。ビッグデータの分野では、データを収集するタイミングでスクリーニングをかけることを「データクレンジング」と呼んでいます。特にIoT機器を使ったシステムでは、エッジコンピュータでデータクレンジングを行い、分析を行うクラウドには誤ったデータを送らないような仕組みが検討されています。

なお、データクレンジングはデータの品質を確保するとともに、データの伝送時間や処理時間の短縮、さらにはストレージの効率的な利用やコスト削減にもつながる技術です。

 

3)ビッグデータの占有の問題

 

アメリカと中国による「ビッグデータ覇権」

現在、人間系のビッグデータは必然的にアメリカの大企業に集まるようになってしまっています。Googleには検索情報が、アマゾンには購買情報が、Appleには音楽視聴情報が、Facebookには人間関係の情報が集まります。また、中国は国民が約14億人おり、その気になれば人間に関する情報を最もたくさん集められる国です。

ビッグデータにより生み出される価値が大きいとすれば、データ収集能力の差が企業や国家の競争力を大きく左右することになると考えられます。

 

日本政府の危機感

こうした状況に対して日本政府は高い危機意識をもっています。経済産業省の「新産業構造ビジョン」(2017.5.30)では、「第4次産業革命の第1幕(ネット上のデータ競争)では、プラットフォームを海外に握られ、我が国産業(例えばゲーム)は「小作人化」している」とあります。

また、これからの主戦場である第2幕(リアルデータをめぐる競争)は、日本が強みを活かせる分野であるとも言っています。ただ、リアルデータの分野でも海外勢が着々と手を打ってきています。特にドイツは「インダストリー4.0」という政策のもとに、製造業の分野で先行しており、アメリカや中国の巨大企業も第1幕のビッグデータのノウハウである「クラウドサービス」をリアルデータの分野にも展開してようとしています。

 

政策的・制度的解決策

政府はビッグデータ覇権の問題に対し、公正取引委員会が設置した「データと競争政策に関する検討会」で検討を進めてきました。この検討によれば、(ビッグ)でデータの独占や寡占という問題については独占禁止法により対応することになりそうです。

また、データの流通(オープンデータ化)への取り組みを急ピッチで進めています。具体的には、官民データ活用推進基本法の制定やサイバーセキュリティー基本法の改正、個人情報保護法の改正などを行ってきています。

 

4)その他の課題

その他の課題としては、データサイエンティストの不足の問題、データの権利関係の明確化と利活用ビジネスの推進などがありますが、紙面の都合もありますので、別の機会にゆずりたいと思います。

 

まとめ

 

①ビッグデータは、これまでのデータベースの技術では管理が困難な大量のデータ群である。

②ビッグデータには、Volume(量)、Variety(種類)、Velocity(頻度・スピード)の3つの特徴がある。

③ビッグデータは、活用の時代に入り、様々な分野で使われるようになってきている。

④ビッグデータには、性能問題、データの品質の問題、寡占の問題などがある。

⑤ビッグデータを分析するデータサイエンティストも不足している。