統計学が最強の学問である(西内啓)
- 作者: 西内啓
- 出版社/メーカー: ダイヤモンド社
- 発売日: 2013/01/24
- メディア: 単行本(ソフトカバー)
- 購入: 11人 クリック: 209回
- この商品を含むブログ (129件) を見る
よかった。
新聞広告や店頭ポップを見て、自己啓発本ブームとビッグデータブームにダブル便乗した軽薄な本かと思ったら、頭の整理や事例を得るのに役立ちそう。
以下、この本に対する補足。
「失業率調査」という調査など、ない。
この本に繰り返し出てくる失業率調査という名前の調査は、正確には、存在しない。米ドル為替やニューヨークダウ平均で注目されるアメリカの雇用統計という名前の統計も、失業率を計る統計としては厳密には違っている*1。、本当は、経常人口調査、Current Population Surveyである。日本では、総務省が行う労働力調査である。
アメリカの経常人口調査、日本の労働力調査この統計がもたらすのは、失業率(日本の統計局では特に「完全失業率」という)だけでなく、労働力人口や非正規労働者人口、非労働力人口を調査するものである。
この本の巻末には参考文献を多く掲げている。そうであれば、、統計データについても、俗称ではなく、情報源や出所について丁寧に扱ってほしかったところ。
ディスるよりも前に、功績に触れてほしい。ナイチンゲールについて。
「ナイチンゲール的統計の限界」という節題を立てる本書は、まるでナイチンゲールのことをディスっているように見えてしまう。
「『集計』だけでよかったのは19世紀まで」という小見出しで紹介するナイチンゲールの集計に関する記述は、段落の数にして2つ。
その集計のために、ナイチンゲールはどれだけの苦労をしたのか。出てきたデータをわかりやすく表現するために行った工夫、そして、圧力に屈せず結果を公表したこと。
鶏のトサカ: フローレンス・ナイチンゲールの最も有名な統計図表
ダイヤグラムにつけた名前に、彼女のどんな思いがあるか。そこに想像力を働かせたら、本書の筆致はもう少し違ったものになっていただろう。
標本誤差が公開されている実例
p値5%以下を目指せ!の陰に隠れてしまい、本書では言及されることはないが、標本誤差に関する情報は、信頼を置かれる統計であれば、しかるべく公開をしている。
その統計が抱えている標本誤差が書いてあるのを目にすると、その統計はあたかもいい加減なものであると誤解されかねない。
しかし、真実はその逆である。
標本誤差があれば、そのデータを使ってp値の評価を行うことができるようになる。仮説を採択してよいのか棄却すべきなのか、判断できる。
一方で、誤差に関する情報を公開していない統計では、その数字をどれだけ信用してよいのかデータ利用者は判断しようがない。誤差情報のないデータは、p値に基づいて評価が下されることを拒絶している。
標本誤差が書かれた統計と、書かれていない統計。使われるべき統計は、どちらのものか。
ビデオリサーチ 標本誤差
視聴率調査について(視聴率ハンドブック)世帯視聴率 標本数600 標本数200
5%・95% ±1.8% ±3.1%
10%・90% 2.4 4.2
20%・80% 3.3 5.7
30%・70% 3.7 6.5
40%・60% 4.0 6.9
50% 4.1 7.1標本数600の場合、信頼度95%(100回中95回はこの幅に収まる)で考えると、視聴率が10%での、考慮すべき標本誤差は±2.4%です。また、真の値は調査結果である10%の近くに多くあることを意味します。
総務省統計局 労働力調査 標本設計の解説(平成20年4月版)
第9 調査結果の誤差表10 全国の主な項目の月別結果数値の標本誤差
主な項目 標準誤差 標準誤差率 (参考)結果数値の
(万人) (%) 大きさ(万人)
労働力人口 10 0.1 6,659
就業者 11 0.2 6,403
自営業者 6 1.0 622
家族従業者 8 3.2 236
雇用者 9 0.2 5,514
完全失業者 2 0.8 257
非労働力人口 10 0.2 4,360