統計学が最強の学問である(西内啓)

統計学が最強の学問である

統計学が最強の学問である

 よかった。

 新聞広告や店頭ポップを見て、自己啓発本ブームとビッグデータブームにダブル便乗した軽薄な本かと思ったら、頭の整理や事例を得るのに役立ちそう。

 以下、この本に対する補足。

「失業率調査」という調査など、ない。

 この本に繰り返し出てくる失業率調査という名前の調査は、正確には、存在しない。米ドル為替やニューヨークダウ平均で注目されるアメリカの雇用統計という名前の統計も、失業率を計る統計としては厳密には違っている*1。、本当は、経常人口調査、Current Population Surveyである。日本では、総務省が行う労働力調査である。

 アメリカの経常人口調査、日本の労働力調査この統計がもたらすのは、失業率(日本の統計局では特に「完全失業率」という)だけでなく、労働力人口非正規労働者人口、非労働力人口を調査するものである。

 この本の巻末には参考文献を多く掲げている。そうであれば、、統計データについても、俗称ではなく、情報源や出所について丁寧に扱ってほしかったところ。

ディスるよりも前に、功績に触れてほしい。ナイチンゲールについて。

 「ナイチンゲール的統計の限界」という節題を立てる本書は、まるでナイチンゲールのことをディスっているように見えてしまう。

 「『集計』だけでよかったのは19世紀まで」という小見出しで紹介するナイチンゲールの集計に関する記述は、段落の数にして2つ。

 その集計のために、ナイチンゲールはどれだけの苦労をしたのか。出てきたデータをわかりやすく表現するために行った工夫、そして、圧力に屈せず結果を公表したこと。

鶏のトサカ: フローレンス・ナイチンゲールの最も有名な統計図表

 ダイヤグラムにつけた名前に、彼女のどんな思いがあるか。そこに想像力を働かせたら、本書の筆致はもう少し違ったものになっていただろう。

標本誤差が公開されている実例

 p値5%以下を目指せ!の陰に隠れてしまい、本書では言及されることはないが、標本誤差に関する情報は、信頼を置かれる統計であれば、しかるべく公開をしている。

 その統計が抱えている標本誤差が書いてあるのを目にすると、その統計はあたかもいい加減なものであると誤解されかねない。

 しかし、真実はその逆である。

 標本誤差があれば、そのデータを使ってp値の評価を行うことができるようになる。仮説を採択してよいのか棄却すべきなのか、判断できる。

 一方で、誤差に関する情報を公開していない統計では、その数字をどれだけ信用してよいのかデータ利用者は判断しようがない。誤差情報のないデータは、p値に基づいて評価が下されることを拒絶している。

 標本誤差が書かれた統計と、書かれていない統計。使われるべき統計は、どちらのものか。

ビデオリサーチ 標本誤差
視聴率調査について(視聴率ハンドブック)

世帯視聴率  標本数600 標本数200
5%・95%   ±1.8%   ±3.1%
10%・90%   2.4     4.2
20%・80%   3.3     5.7
30%・70%   3.7     6.5
40%・60%   4.0     6.9
  50%    4.1     7.1

 標本数600の場合、信頼度95%(100回中95回はこの幅に収まる)で考えると、視聴率が10%での、考慮すべき標本誤差は±2.4%です。また、真の値は調査結果である10%の近くに多くあることを意味します。

総務省統計局 労働力調査 標本設計の解説(平成20年4月版)
第9 調査結果の誤差

 表10 全国の主な項目の月別結果数値の標本誤差

主な項目   標準誤差  標準誤差率 (参考)結果数値の
        (万人)   (%)    大きさ(万人)
労働力人口    10      0.1       6,659
就業者      11      0.2       6,403
 自営業者    6      1.0        622
 家族従業者   8      3.2        236
 雇用者     9      0.2       5,514
完全失業者    2      0.8        257
非労働力人口   10      0.2       4,360

*1:経常雇用調査、Current Employment Surveyは、企業を対象に調査を行い、雇用者数を推計する。ここからは、失業者の数は計れない。それができるのは、世帯を対象に調査を行う経常人口調査の方である。