データジャーナリズムの時代

2012-11-19

データジャーナリズムの時代

データジャーナリズムという言葉を、頻繁に耳にするようになった。

日本でも佐々木俊尚さんがすでに紹介しており、少しずつ認知されつつあるようだ。細かい定義はいろいろあるだろうが、おおまかには「データを上手に使ったジャーナリズム」だと言える。例えば、英Guardian紙のData Blogや、米Los Angeles TimesのData Deskは、公のデータを効果的に可視化し、そこから今まで多くの人が気がつかなかった知見を導きだしている。O'Reilly社からもData Journalism Handbookなる本が出版されており、欧米の代表的な新聞社は、どこもデータジャーナリストの採用とトレーニングに余念がない。

今日は、このデータジャーナリズムについて、適当に私見をまとめてみる。

わかりやすさ

データジャーナリズムというが、実際のところはデータ可視化ジャーナリズムだ。百聞は一見にしかずというわけで、ぐだぐだ散文を読むよりも、グラフやアニメーションを見た方が遥かにわかりやすいことが多い。¹

例えば、オバマ大統領に対する差別的ツイートの分布をアメリカの地図上に描画したこのエントリなど、本文を読まなくても地図だけ見れば「やっぱり未だに南部は黒人差別が根強い」ということが一目瞭然だ。また、モンタナ州・ワイオミング州のデータが全く存在しないことにも気づき、ひょっとしたら元データの地域別分布について再度検証するべきかもしれないという今後の課題も、ひとめでわかる。

本文を読まなくてもわかる—ここに、言語を超えた普遍性という、可視化の持つもうひとつをわかりやすさがある。例えば、Steve Jobsの伝記の和訳版の表紙を、筆者はいろんな訳書を並べて揶揄したことがあるが、このエントリは爆発的に、それも世界的にヒットした。どのくらいヒットしたかと言えば、過去全トラフィックの25％ほどである。quippedには全部で165エントリ（本エントリを除く）あるので、いかに突出しているかわかるだろう。人気が出た理由として、日本語がわからなくても言いたいことがわかるというのは大きかったと思っている（そりゃ日本語がわかった方が金田一への言及とかも理解できて面白かったのだろうが）。

伝統的なジャーナリズムが超えられない言語という大きな障壁を、データジャーナリズムは、部分的にでも超えられるのだ。

データはたくさんあるが：Nate Silverと大統領選

最近では、ウェブでいろいろ調べれば、いくらでもデータを見つけられる。実際に、GuardianのData Blogにしても、各エントリの土台となっているデータは、どれもウェブ上でタダで入手できるものばかりだ。

もちろん、ジャーナリスト権限を持った記者にしか得られないデータというのも沢山ある。要人へのインタビュー権、刑事事件の現場、天災に見舞われた地域での報道権。ただ、そういった特殊なデータに頼らずとも、万人に公開されているデータを読み解くことにより、示唆に富んだ面白いジャーナリズムを作り出すことができるのが今の時代だ。

そういう意味では、今月はじめのアメリカ大統領選にて、二大政党のどちらに各州が投票するのか100％的中させたNate Silver氏が記憶に新しい。

Silver氏はもともとKPMGのコンサルタントで、夜な夜なメジャーリーグの選手の将来のパフォーマンスを予測するシステムPECOTAを開発し、セイバーメトリクスを駆使したスポーツの分析を行っているBaseball Prospectus社に売却したところから、ミスター統計マンとしてのキャリアが始まる。その彼が2007年に目をつけたのが、4年に一度行われる大統領選だ。自身のブログFiveThirtyEight上で、2008年の大統領選の結果を、インディアナ州を除く49州的中させて（ちなみに同じ日に行われる上院議員選挙の方は百発百中）一挙有名になった。その後、FiveThirtyEightはニューヨークタイムズ社の一部となり、今年の選挙当日には、nytimes.comのドメインの訪問者の5人に1人がSilver氏のブログを訪れるという驚異的な人気を見せた。

なぜSilver氏の予想はこんなにもよく当たるのか。

漫画だったらここで彼の特殊能力が明らかになるのかもしれないが、CFARも指摘しているように、Silver氏の予想モデルの元になってるのは、様々な団体がかき集めた世論調査だ。彼自身の貢献は、どの調査にどれだけの比重を与えるかを決めている部分だ。綿密にデータを集め、それを客観的に分析できたことが、彼の勝因だと言える。

それではなんでNate Silver氏「だけ」がここまで正確だったのかと疑問に思う人もいるだろう。結論から言ってしまえば、正確な予想をしたのはSilver氏だけではない。プリンストン大学のSam Wang教授のように、かなりの精度で的中（フロリダ州以外）させた人たちは他にもいる。ではなんでここまでSilver氏「だけ」が持ち上げられたのか。ニューヨークタイムズという巨大なメディアによる宣伝活動は無視できないが、同じくらい重要な要素として、大統領選の専門家とされている人たちが基本的に統計学とデータ解析に疎いことが挙げられる。つまり、普段大統領選の結果についてテレビや新聞でああでもないこうでもない言う人たちが、軒並みデータ音痴で、感情論任せの彼らの予想がことごとく外れたため、Silver氏の正確さが際立ったのだ。

当たり前のことだが、どんなにたくさんデータがあっても、そこに価値を見いだせなかったり、データ解析の手法を知らなければ、そのデータはゴミである。ただ、残念なことに、今までジャーナリズムに関わってきた人たちのほとんどは、統計的手法に果てしなく疎い。²

ここからは憶測の域を超えないが、今までのジャーナリズムにとって、データというのは、集めるだけでも一苦労だったのだろう。そもそも多種多様なデータを保存できるような技術も手段もなく、生データにアクセスできる環境も人間も限られていた。SNSはおろかウェブもなく、情報の伝播速度が遥かに遅くかつ一様だった時代には、ジャーナリストは「事実を正確に迅速に伝えること」だけで十分な役割を果たしており、データはあくまでも「事実」を裏付ける静的要素だったのではないか。統計技術を駆使した大統領選の結果予想を新聞がやるなんて、お門違いだったわけだ。

差別化としてのデータジャーナリズム

だが今は違う。別にプロのジャーナリストがスクープを出せないというわけではないが、情報を正確に迅速に伝えるだけなら、プロのジャーナリストへの依存度は低い。もっと正確に言うと、迅速に情報を伝えてくれる情報源がたくさんあるので、その中から個々が正しい情報とまちがった情報をふるい分ければいいのだ。つまり、プロのジャーナリストが生き残るには、事実を正確に迅速に伝える以上の何かが必要ということになる。

個人的には、この「何か」のひとつとして、データジャーナリズムを位置づけている。

データジャーナリストとして活躍するためには

ジャーナリズムの文法を理解している（いわゆる報道機関での経験）
データを（機械的に）集めてこれる
データを変換できる
データを統計的に解析できる
データを可視化できる
可視化したデータの意味を読み解き、それを上手に文章化できる

といったスキルが必要になる。もうおわかりだろうが、伝統的なジャーナリストが得意としているのは1と6だけで、2・3・5は所謂プログラマーの仕事、4は統計学の素養を要する。別に凄腕のプログラマーや天才統計学者である必要はない。でも、データを集めるスクリプトを書くにしても、集めたデータを使える形式に変換する³にしても、整理されたデータを可視化するにしても、ターミナルを開いてごにょごにょやる必要があるし、数学が全くできない人には統計的検定はできない。

こう言ってしまうと、データジャーナリストなんて殆ど存在しないような気がしてしまうが、実際にはBen Welshのように、独学でプログラミングを覚えたジャーナリストもいるわけで、まったく無理な話ではない。プログラミング言語にしても統計学にしても、データを報道に役立てられるレベルで使えればよく、そのレベルまで習得することは、希代のジャーナリストを目指すよりも楽だ。誰がどうみても斜陽の伝統的マスコミ機関において、データと統計に明るくなるというのは、個々のジャーナリストが手軽に始められる、サバイバルに向けた差別化ではなかろうか。先日も「人生はかけ算だ」と書いたが、その系として、「かけ離れたスキルをかけ算するとバリューが大きい」というのがあり、ジャーナリズム×統計×プログラミングは、良い例だと思う。

誤解がないように言っておくが、ぼくは伝統的なジャーナリズムが消えていくといっているわけではない。ただ、今までと同じような手法で生き残れるジャーナリストは、数が限られている。アメリカの例になってしまうが、New Yorker誌に寄稿しているようなジャーナリストたちは、これからも食うには困らないだろう。⁴でもそんな幸運な人たちは一握りで、みんながみんなそんな実力と運があるわけではないので、時代に即した身の振り方を考えた時に、データジャーナリズムというのは美味しいのではないかとみている。⁵

「だったらてめえのブログはなんなんだよ。文字だらけじゃねえか。」と思う読者もいるだろう。個人的には、視覚的情報と文章というのは、補完関係にあるとみている。視覚的情報は、文章よりもずっと素早く直感に訴えかけることができる反面、それのみでは論理的裏付けが弱い。なぜある特定の可視化の方法が効果的なのか、データはどこから来たものなのか、なぜそのデータは信頼に値するのか、どういった統計的な仮定があるのか。こういった情報を伝えるためにも（明確な）文章は不可欠である。
↩
元ブンヤのせがれが言うんだから間違いない。
↩
例えば、オバマ大統領に対する差別的ツイートにしても、数あるツイートの中から差別表現を含むツイートをとってくるには、プログラミングの能力と自然言語処理の初歩的な知識が必要とされる。
↩
大昔だが、「冷血」の作者で知られるカポーティが、東京に滞在中のマーロン・ブランドーについて書いた記事がNew Yorker誌に掲載されたことがある。そもそも殆どのジャーナリストは生前のブランドーを取材する機会に恵まれなかったんだろうが、例え取材できてもこれほどクオリティの高い記事が書ける人は、ほとんどいないだろう。要は「カポーティを目指すくらいだったらPython覚えたほうが楽なんでは」という話。
↩
まあこんなこと書いたところで、日本のマスコミはピクリともしないだろう。そして5年、6年と経った時に、データジャーナリズムが流行り、プログラミング経験や統計学の素養のある学生を積極的に雇いだすんだろうな。
↩