メモ;「PUBLIC TALK #2[パブリック×ビッグデータ] 小林啓倫×市川裕康」

open CUのイベント1に参加してみた。ビックデータの活用とは「巨大なデータを、高度なデータマイニング手法によって深く分析し、その結果を活用する。そうすることで、専門家でさえ気づかない事象の変化への対応や、人を介さない意思決定が実現可能になる。」2

そもそも「情報通信、とくにインターネットの発達にともなって爆発的に増大した構造化されていない莫大な量のデータ。それら様々な局面に発生した巨大データの集まりを分析することでビジネス傾向の特定、病気の予防、犯罪の対策などにメリットがあると言われている。

モバイル機器に搭載されたセンサー、リモートセンシング技術、ソフトウェアのログ、カメラ、マイクロフォン、RFIDリーダー、無線センサーネットワークなどでデータが収集されるようになったこともデータが増加する一因となっている」3。近年のスマートフォンの一般市民への浸透、小売の現場でのデータ収集が増えていること、これらから生成してくる“バルク”のデータは加速度的に増加している。

これらのデータは、非構造化データと呼ばれ、大量のデータだ。従来であれば解析には膨大な時間が必要となり、現実には利用は不可能と考えられていたが、許容できる時間内に効率的に処理するための特別な技術によりそれも可能になると考えられる。「そこで用いられる技術には、超並列データベース、データマイニング、グリッド、分散ファイルシステム、クラウドコンピューティングプラットフォーム、インターネット、大規模記憶装置などがある。」3具体的にはストレージの低価格化、分散処理コンピューティング(通信・ネットワークインフラ+ソフトウェア)、データ解析技術(パターン認識などのソフトウェア技術)があるだろう。

自分と指摘になる点もある。各種物理的センサーデータや個人が意識しない内に発している情報(モバイル機器に搭載されたセンサー、ソフトウェアのログ、RFIDリーダー、POSデータ、etc)の解析と、個人が意図的に発する情報が一緒に議論されてしまっているように思える。前者においてはバルクデータからの有用情報の抽出方法の開発の革新が重要になるが、後者においては「キュレーション」的な考え方が重要になると思う。もちろん莫大なツィート情報から情報を抽出しようとするサイト例4もあるので、重複するところもあるのだが…。

参考;
1.PUBLIC TALK #2[パブリック×ビッグデータ] 小林啓倫×市川裕康 - OpenCU.com
2.「ビッグデータ」が注目される理由 - 記者の眼:ITpro
3.ビッグデータ - Wikipedia
4.カゼミル プラス

コメントを残す