とみさんの日記

物忘れが激しい世代の備忘録

「ビッグデータ」の現状・・・といっても、昔から変わらないんじゃないのという所感

まあ、体感的にも概ね妥当な結果かなあと思ったわけなんですよ。

ビッグデータ」の現状
http://www.keyman.or.jp/at/infosys/bi/30004612/

もう"SIS"の昔から、データを分析して経営判断に生かすといったテーゼは繰り返されているわけですが、以前と状況が違う点は、データを溜めておけるキャパシティーがHDDの高密度化により格段に増えている事と、大量データを処理するだけのソフトウェア/ハードウェア面での基盤が整ってきており、お金と能力と気合いがあれば、比較的とっつきやすくなっている点と思います。

ビッグデータ」といっても、この言葉が表す所は単にデータの規模感ではなく、それらを処理する方法論、システム基盤などを含んだニュアンスがあるように感じます。それゆえ定義があいまいであり、人によって意味する所が微妙に違っていて時々議論になったりするわけですが、「クラウド・コンピューティング」よりは、遥かに近しいコンセンサスがあるように思えます。
まあ簡単に言えば、新しいバズワードですね。

目的は業界によって違いがあると思いますが、主にマーケティング的な観点からは、「人の行動パターンを抽出すること」に尽きると思います。人の行動には、その属性に応じた何らかのパターンが存在し、それを見出す事で次のアクションが決められる。分かりやすい所で言えば「雨が降れば、傘が売れる」パターンがあり、天気予報で崩れる事が予想されるなら、傘の在庫を増やすなどの対応を取って、ビジネスにつなげるという意味です。

これらの因果関係、相関関係を見出すために、統計精度を稼ぐためには大量のサンプルデータが必要になってくるわけです。そして、いわゆるデータマイニング=どんな変数間に相関があるのかを捜索する作業においても、関係しそうな変数を全て記録していこうという動機につながり、勢い、データ量が膨大になるという事につながるわけです。

裏を返せば、人の行動が非常に気まぐれでランダムに近い場合、想定しているケースによってはどれだけ大量なデータを処理しても、何の関係性も見いだせない事が考えられます。つまり一定のパターン、傾向が見いだせない分析をいくら繰り返しても、その後の行動を決める意思決定には何の役にも立たない無駄な作業となりえるわけです。もしも台風が東へ西へ、南へ北へと縦横無尽にランダムに動き回るなら、予測シミュレーションをいくら行っても、防災上、何の意味も無いのと一緒です。

ビッグデータ」の言葉の裏には、これらの作業を行うだけのスキルが必要なわけですが、どれだけの人材がいるのかというと、個人的にはかなり疑問に思っています。仮説検証的な作業になるわけですが、仮説立案のためには対象業界における業務知識が必要であり、検証のためにはデータ操作、統計分析のスキルが必要とされます。それも比較的高いレベルで。

アクセス解析業界にいた頃、結局、「分析」を行うだけのスキルも時間も取れないので、主要KPIをダッシュボードで一覧できるようにしておいて。といったリクエストが多いのを目の当たりにしました。パターン捜索ではなく、単にPVやCV数といったボリューム評価のみに終わる事が多々ありました。アクセス解析であれば、セグメントを分けた後のパターンを見ていく作業が中心になり、高等数学的な知識はほとんど不要です。

ビッグデータ」では最低限の実務レベルの統計処理の知識が必要とされ、より、ハードルが高いものとなっております。世の中、そんなに多くの人がいるようには、私には思えません。
結局の所、汎用性の高いKPIのコンセンサスができて、それを莫大なデータから自動的に集計・抽出して表示してくれる所まで開発が進まないと、そうそう普及はしないと予想しております。

逆に、これが出来る体制を組めた会社は非常に有利に事を進められるのでしょう。ネットでのプラットフォーム事業を行う会社の多くの大手は、データ分析のチームを抱えていますし、高収益体質の維持に貢献しているのではと思います。以前に「データサイエンティスト」なる言葉を軽く揶揄しましたが、それでも、この手の職業へのニーズは高くなるといいなと思います。