とみさんの日記

物忘れが激しい世代の備忘録

「データサイエンティスト」って何よ。

こんな広告記事があったわけですよ。

「データサイエンティスト」って何だ
http://www.atmarkit.co.jp/news/201206/04/emc.html

ここ何年か"Big Data"という言葉の流行にあわせて、この"データサイエンティスト"なる職種も取り上げられる事が多くなったわけですが、データをサイエンスするように聞こえるこの表現って非常に違和感があるのですよ。
実証主義であるサイエンスにデータは不可欠であり、ことさらに取り上げる事なのかしらと。
まだ昔ながらの「分析屋」「統計屋」の方がしっくりくる自分がいたりします。

これもまた、世間の耳目を集めるために、それらしいキーワードを作った事なのだろうと思うわけですが、いまどきの「データサイエンティスト」に要求されるスキルとは何なのかなあと想像してみました。

(1) コンピューターでの数値演算のスキル

シミュレーションでは、特にモデルの式を離散数学を理解したうえで、プログラミングするスキルが必要になります。コンピュータでの数値演算ならではの精度維持や誤差の処理についても理解していないと、繰り返し演算の度に精度が落ちるという事が起きたりします。自分が新人の時にも、結構うるさく指導された記憶があります。

(2) 分散コンピューティングの技術

最近のテラバイト、ペタバイト級の"Big Data"を扱うためには、普通に単体のマシンで処理をするには限界があり、複数台のマシンで並行処理をさせる技術が必要となります。最近のHadoopのような分散処理基盤を利用するのも良いでしょう。これらを組み上げるにはハードウェア、ネットワークの深い知識も必要なのですが、最近はそれさえも、さくっとクラウドで提供している業者があります。

(3) 統計、機械学習などのアルゴリズムの理解

単純に集計するレベルから、各データ間の関係性を探ったり、分類を行ったり、現状のデータを元にした予測を求められる事があると思います。これらは基本的な統計量を理解していないと、そもそも何をしたらよいのか見当をつける事さえ出来ないと思いますし、何等かの結果を得たとしても演算結果を解釈できません。
さらには分類木などの機械学習アルゴリズムや、それらの実装に関しての利用技術を深める事も必要です。

(4) データ取得、クリーニング

実は実業においては一番に手間と時間がかかるところかもしれません。既存の大量データを利用して、何かうまい事を言えといったコンサルテーションならともかく、何らかのビジネス上のゴールを達成しようとするには、どのような指標をモニターし、そのためにはどのようなデータが必要で、どのように取得するかを決める事は難しい事です。特に取得設備の構築に予算も時間もかかり、やり直しが難しい場合は特にです。
また取得したデータも、まるまる使えるとは限らず、ノイズ分を除去したりと解析にかける前処理が重要なケースもあります。


他にもいろいろな要求スキルは考えられるのですが、重要度からいえば上記なのかなあと思います。日本ではそもそも「統計学部」を設置しているところがありませんし、なかなか、体系だってレクチャーしてくれる機会は少ないのではと思います。自分も聞いた事がないですね。
もともとデータ分析する人材が不足していたわけで、その観点からも"Big Data"なる業界バズワードの寿命は、さほど長くないのではとも邪推しています。