2014年8月14日木曜日

統計で遊ぶ NYタイムズのChronicle ソフト

コロンビアの大学院時代、第二外国語の授業の代わりに統計学を
取って、散々苦労したことがまだトラウマになっている。(笑)

第二外国語をアメリカの大学院(フランス語の政治哲学の本を読まされ、しかも
授業は英語)で取るなんていうことはやりたくなかったので統計学を取ったが、
これもダメだった。
数学用語(たとえば微分とか)の英語ボキャブラリーはゼロだったから。
今でも夢に見る・・。
でも、ジャーナリストにとって、統計は論旨に説得力を与えるという意味で、
非常に重要。誰か他人が計算してくれたいい統計数字を見つけたときは
ラッキーと思う。要するに他人を頼りにするしかないわけだ。

というわけで、おもしろい統計ソフトの話。
役に立つかどうかはわからない。

ニューヨークタイムズ紙上で、その単語が何回現れたかを計るソフトが出来た。
つまり、その言葉がどれだけ話題になったかを、NYタイムズの記事に単語が
何度登場したかによって計る、 というもの。それが棒グラフとして視覚化され
ると同時に、その単語が新聞の記事全体の何%に登場するかということもわかる。

作ったのはもちろんNYタイムズ。
だから、1851年より後の統計しかない。
もちろんタイムズに現れるばかりが注目の指標ではないのはわかっているが、
それでも面白い。

 たとえば、Japanという言葉を入れてみると、棒グラフは1904年(この言葉が
記事全体の4.1%に登場する)、1945年(4.8%), 1990年 (3.5%) が突出している
のがわかる。1945 年は説明はいらないが、1904年は日露戦争開始?、
1990年はバブル経済?などなど想像してみるが、それもなかなか楽しい。

それでアーティストの名前を入れてみると、どんなアーティストがいつ頃から
興味をもたれるようになったのかがわかって面白い。フェルメールから
ジェフ・クーンスまで、いろんなアーティストの名前を入れて試してみたが、
いまのところ、登場回数が一番多いのはやっぱりゴッホのようだ。

入力単語によって棒グラフが違った色で出てくるから、比較することもできる。

 しかし、ダヴィンチのように、『ダヴィンチ・コード』という小説タイトルと
重複するものは困るのだが・・・。

いろいろ遊べるので、興味があったらやってみてください。
下のリンクに行って、四角の中に単語(英語)を入れるだけ。
やり直したい場合は左下のClear graphをクリックすればいい。

http://chronicle.nytlabs.com/?keyword=war

NYタイムズは、全記事をコンピュータにインプットしているという
ことなのだろう。