ロングテールの議論における、標本調査の限界

 統計データを扱うときには、数字を追うのではなく統計を読まなければならない。

日本経済新聞 1月9日朝刊

 総務省就業構造基本調査によると、10代の起業者数は12年に全国で800人。リーマン危機前の07年に比べ100人減った。ただ、逆風の中で10代女性の起業は100人から3倍に増えた。

 就業構造基本調査は、5年ごとに行われる就業、労働に関する最大の調査*1である。それでも、これは標本調査であり、その調査の対象は「約47万世帯の15歳以上の世帯員約100万人」である。*2

 標本調査の限界をわきまえれば、抽出率1%の調査において、結果数値が"数百人"が意味するところは、どういうことか?

 そういう数字が増えた減った、何倍になった、という議論は、夏休みの自由研究レベルか、フリーペーパーや下衆なポータルサイトで量産される記事である。

*1:これよりも大きな就業に関する統計調査は、国勢調査しかない

*2:[http://www.stat.go.jp/data/shugyou/2012/2.htm#p4:title=”平成24年就業構造基本調査 調査の概要 4 調査の対象”]