世の中、大量のデータから予測をするのは大変です。 で、昨今ではビッグデータという魔法のような言葉が生まれています。。。実は僕は昨今のビッグデータの話には懐疑的です。 それは多くの人が、「シグナル」と「ノイズ」の問題について語ることがないから。
情報理論/通信工学の世界では「S/N比」と呼ばれるこの問題について語ってるビッグデータ談義が少ないんですよね、はぁ。 単にデータが増えてなんでもわかるぞ、おー!なんていうラッキーなことばかりではないはずなんですけどね。いいデータ(シグナル)が増えるのと同様同じようにノイズも増えるわけで。 ※「シグナル」と「ノイズ」の話については、小飼弾氏のこの記事もどうぞ。
そんな中。
そうですか、遂に出ました。。。か。。。
ネイト・シルバーのあの本が!邦訳で!!
訳者様、お疲れ様でした。
ビッグデータと騒いでる御仁にはぜひ呼んで欲しいのがネイト・シルバーの本。
ある筋からの話によれば、アメリカ大統領選において50州の予想を全部的中された彼でさえ、ちまたの「ビッグデータブーム」からは距離をおいているという。
Who is Nate Silver ?
ネイト・シルバーを知らない人はまだまだいるはずなので、ここでちょっとだけ紹介を。
ネイト・シルバーは1978年生まれの統計家というかデータからの予測において秀でた才能を持つと言われている人物で、先に書いたように全米の大統領選において全ての地区の勝敗を当てたことで知られている。しかしながら、彼が得意としている分野の一つにはスポーツの勝敗があり、例えば彼のブログ FiveThirtyEightは、もともと立候補者の数538から取ったものであり、NewYorkTimes などとライセンスを結んだりして有名になったあと、あのスポーツ系ケーブル局ESPNのものになっている。
ちなみにネイト・シルバーによれば、ワールドカップでの日本の予選突破確率は、
らしい。
恵まれたことに、今年の夏、ボストンにて生ネイトの講演を聞く機会があった。
においても、少しコメントしたけれども、どうも昨今のデータアナリスト、データサイエンティストやビッグデータブームにおいて、「S/N比」と呼ばれることについて語られることが少ないのが不思議に思っていた。アタマにも書いたけど、なによりもデータ量が増えるとシグナルと言われる”いいもの”だけでなく、ノイズとよばれる”わるいもの”も増えるはずなのに、ビッグデータブーム化においてはそのノイズの話がされることがなく、なんかわからんけどデータの量が増えるとすごいことがわかるんでしょ?みたいなことになっているのが、情報理論の基礎が欠如したバズワードの問題なのかと。そこでそのものずばりの「Signals & Noises」というタイトルの本を書いた彼に興味があり読みだしたタイミングだったので、非常にラッキー!だった。彼の話は多岐にわたるもので、中でも真珠湾攻撃の話が出てくるとか、統計から読み解く世界、という感じの講演だったなあ。
“数字自体は何も語らない。語るのは私たちだ。”
ちなみに、各所で紹介されるネイト・シルバーの肩書は「データほにゃらら」ではなく、「statistician」の肩書を保っているのはもしかするとビッグデータブームから距離を置こうとする姿勢がその背景があるのかもしれない。だって彼は「予測屋」として誇り持ってる感じするからね。
いや、とりあえず、読んでください。
ちなみに、原著版ならKindle版もありますよ。