誤解を恐れずに言うならば、主観に頼ってものを言うのは実に楽しいことである。客観性をひとまず横において、不十分なデータから断定的な主張を繰り広げ、偏見や思い込みをものともせず、勝手なことを無責任に語る。「×国人はみんな××」とか「女ってやつはみんな△△」というようなあれであり、個人的に知っている×国人がたった二人だったり、半生にわたって付き合った女性が三人きりだったりする場合、偏見度が特に高くなっていると言えるだろう。サンプル数から言えば「O型の人はみんな」のほうがまだマシかもしれない。
長年の教育の結果、こういうのが「悪いこと」だということはどうやら一般常識となっていると思われるので、それでも残っているのは何らかの理由があると考えられる。考えてみれば私だって「科学の研究者というものは」とか「三歳くらいの男の子というのは」と語ってみたい欲求はある。確かにある。この後の例なんて、育てた三歳の男の子はたった二人に過ぎないのだが、何か一般的なことを言ってみたい気はするのだ。
以降ちょっとシニカルな話になるが、そもそも人は自分の意見を主張する、その補強材料となるものを常に探している。たとえば、
(1)日本の教育は間違っている(と主張したい)。
(2)国際的な学力調査の結果が出た。日本は一位ではなかった。
という場合に、このことは明らかになる。タイミングをはかり(2)だから(1)であると主張すれば、聞く耳を持つひとは必ず何人かいるだろうと思えるからである。逆に、
(1)日本の医療は間違っている(と主張したい)。
(2)国際的な平均寿命調査の結果が出た。日本が一位だった。
こういう場合は実にやりにくい。平均寿命だけが医療制度を測定する物差しではないし、また一位だったからといって何もかもが正しいということにはならないのだろうが、逆だったらどんなにかいいのに、と思う人も多いだろうと思われる。いやそんなことはないと思うが、まあこのようにして、人は自分の主張を通すための武器を常に探しているのである。これをレバレッジと呼んでもいいし虎の威を借る狐と言ってもいいが、そういえば、
(1)阪神タイガースの運営方針が間違っている(と主張したい)。
(2)前シーズン、とんでもないゲーム差がついたところからの逆転優勝を許した。
なんていうのは。あ、ええと、なんでもないです。もうこの話はやめよう。
上のように、自分の主張を権威付けるための武器として、有力なのは統計、調査結果である。なにしろ、身のまわりの狭い範囲の経験から判断を下すと、事例数が少ないことによる、思わぬ平均からのずれが起きる。目立つ事例だけ覚えているという記憶の働きのことも考え合わせると「○○市には泥棒が多い」という判断を統計に頼らず下すことがいかに危険か、さすがにみんなよくわかっていて簡単には騙されない。「経験者の感想であり効果を保証するものではありません」とテレビコマーシャルに言われるまでもなく、効果を実証するのは一にも二にも多数のサンプルと厳格な統計であり、記憶に残るエピソードではない。
しかし、では信頼ある調査のためにはどのくらいの数のサンプルを集めればよいのか。あるいは、身の回りの人百人に聞いてみましたのアンケート結果は、新聞の世論調査と比べてどの程度信頼性が低いのか。これはわりあい知られていないことであって、確認しておく価値があるかもしれない。
今、内閣への支持不支持を訊ねる支持率調査が行われたとする。無作為に選んだ有権者千人に訊ねて、全員から「支持」か「不支持」のどちらかの答えを得る。こんな完璧な調査はありえず、実際には「どちらでもない、わからない」という答えの人だっているはずだが、まあそこはそれ、話を単純化して全員が「支持」「不支持」のどちらかを答えたとした場合、たとえば「支持率18パーセント」という結果を得たとして、これがどこまで国民全体の意思を反映しているだろうか。調査を千人に限ったことによる、なにか不都合はないか。
結論から書くと、この場合、誤差は1.2ポイントとなる。これは国民全体を調査した場合の真の支持率が18-1.2(%)と18+1.2(%)の間に入る確率が68%ということで、区間を倍に取って(18-2.4)〜(18+2.4)の間に入る確率なら約95%となる。調査二十回につき一回はこの範囲から外れるが、まあ、だいたい16から20の間くらいだろう、ということはかなりの確信を持って言える。この誤差は、
√{p(1-p)/n}
で得られるので、覚えておくとちょっと助かることがあるかもしれない。ここではpは支持率(本当は「真の支持率」だが多くの場合は便宜的に「調査対象による支持率」を使う)、そしてnは調査対象になった人の数である。
これからわかる面白いこととして、調査はなんによらず千人でたくさん、ということがある。調査対象が「日本人全体」とか「全県民」というふうにある程度大きな母集団である場合、そして、おおまかにイエスノーが半々に分かれるような調査の場合、千人を調査すれば上のように数パーセントの精度が得られる。また仮に十倍の費用をかけて一万人を調査したとしても、誤差は約三分の一しかよくならない。これが必要とされるのはよほどの場合(たとえば支持率が49パーセントなのか51パーセントなのかが大きな問題となる場合)である。わかると思うが、むしろ大事なのは調査対象の選び方(サンプリング)が本当に無作為かどうかであって、サンプル数よりもずっと大きな問題になることが多い。
さて、このようにサンプル数を十倍に増やしても三倍しか精度が改善しないのだが、これは逆方向にも言える。サンプル数が十分の一でも、精度は三倍しか悪くならない。たった百人しか調査しないくせに「支持率18%です」と言ってしまってはかなりいいかげんな調査に思えるが、この場合の誤差は3.8%であり「大人気とはいえないなあ」というのは十分にわかるといえるだろう。さらに、調査対象がたった10人であっても、誤差は12%だから「支持が過半数には達していないだろう」というのは、かなりの確信を持って言えるということになる。
つまりこういうことだ。自分の経験から狭くものを見ていても、狭いなりに、これはなんらかの世情を反映している。自分の親戚が三十人くらいいて、うち五人がウソツキだったら日本人の17パーセントはウソツキ、みたいなことは7パーセントの誤差を見込めばちゃんと言える。学生時代に付き合った三人の女の子のうち二人がウソツキだったら、女は67パーセントがウソツキ、というのは27パーセントの誤差で言えるのである。たぶん。友人関係百人くらいを調べて言ったことにはそれなりの敬意が払われるべきであり、誤差さえつけておけば安心して主張を繰り広げられる。67%±27%。意味がない気もするがそういうものだ。
ただまあ、それで「日本の教育が間違っている」とどれだけいえるかは、また別の話である。私はといえば、まあ、間違っているかもしれないけどそんなに大外れはしてないんじゃないかなあ、と思っているが、この感想こそが統計の本質であると、もしかしたら言えるかもしれない。