誤差の国の葵ちゃん

 私の通った大学では、理学部の学生のカリキュラムの中に必ず「学生実験」という科目が組み込まれていた。ここで知らない人のために解説を入れるが、大学の四年生が卒業のため何らかの論文を書く、そのためにする実験は「卒業実験」と呼ばれている。学生実験というのは、学年でいうと大学の一年生から三年生が行う実験のことを指していて、中学生や高校生のときに授業でやっていたのと本質的に同じ、あらかじめ出る結果が決まっている内容を実験して、結果を報告する訓練をするという、そういう目的のものである。しかし、なにもかも中高生と同じかというとそんなこともなくて、一番大きな要素が「誤差」の存在であったと思う。

 いやもうまったく、「誤差」さえなければ学生実験はどんなに楽しかったろう。誤差伝播や最小二乗法といった科学の秘術を鼻歌まじりでこなしてのける、生まれついての実験屋もどこかにいるのだと思うが、ほとんどの学生にとって(私にとっても)誤差は慣れない概念である上に、扱いも面倒なものだった。誤差――測定値がどれだけ信用できるかという重み――がついてまわり、誤差を含めて提示しなければ出した数値に何の意味もない、そんな世界にはこの学生実験で初めて出会ったと言っていい。装置の誤差を見積もるのは難しく、伝播の計算は複雑で、電卓を頼りの計算はしばしば暗礁に乗り上げ、締め切り迫るレポートは明日をも知れない漂流を続けるのである。あのとき快く提出締め切りを延ばしていただいた学科の先生方には、あらためて心からのお礼を申し上げたい次第です。

 以上、やくたいもない思い出話をしたものだが、おそらく大学の理系の学部を卒業した人間であれば、一人残らず「誤差」というものの存在と、その重要性を理解しているはずである。確かめたわけではないが、そのはずだ。しかしながら、やっぱり考え方や取り扱いが複雑だからだろう、日常生活で誤差を含めた数字が示されることは、あまりに少ない。予想最低気温や内閣支持率、テレビの視聴率やお茶碗いっぱいのご飯のカロリーといった数値には、本来すべて何らかの誤差が含まれているはずなのに、たいていは誤差なし、無制限に信頼できる数字であるかのように、発表され、受け止められているのだ。これではいかんと思うのである。もっと誤差を大事にすべきではないか。

 例を挙げよう。毎年年末になると、その年もっとも多かった子供の名前、といったものが発表される。面白い話題なのでテレビのニュースなどでも大きく取り上げられるから、ああ突飛な名前が多くなってきたなとか、そうか駿くんの人気は翔くんを抜いたのかとか、そういう理解がされているのではないかと思う。

 しかし、あまり報道されていないことだが、調査の実状を知ると、そこまで無条件に信用してよい情報なのかどうか、疑問がわいてくる。まずもって、この名前ランキングは、日本全国で今年生まれた全ての子供の名前を集計して、算出したものではない。いや、なんとかして「そういう調査」ができないかというと、できるはずである。詳しくは知らないが、おそらく「住基ネット」かなにかを使えば比較的ローコストでぱっぱっと、もれなく全国の子供の名前を調べられるのではないだろうか。全数調査が原理的に可能であることで、余計に勘違いしやすいと思うのだが、よく発表されているアレは、全員を調べたわけではなく、一定の人数を抜き出して、それが全体を反映していると期待して、作られたランキングなのである。いわば、選挙ではなく世論調査である、ということだ。

 調査の詳細を、明治生命のホームページから知ることができる。この統計は、明治生命の個人保険の契約者のうち、二〇〇二年(ただし、かなり残念なことに一二月生まれは含まれないらしい)に生まれた子供、男子三七二八人、女子三四四七人の名前を集計したものだということである。思ったより少ないサンプル数ではないかと思う。人数の入ったランキング表を、このページから引用してみよう。

男の子女の子
順位前回順位名前人数順位前回順位名前人数
19駿25美咲24
拓海232224
23七海20
2234美羽19
翔太2012莉子18
15颯太2019美優17
海斗1915
健太17美月14
大輝165114
1015大樹14優花14
1028142214

 ベストテンではなく、各々十一ずつ名前があるのは、同点同順位の名前があるからである。一位の駿くん、美咲ちゃん(および葵ちゃん)の人数は、それぞれ二五人と二四人というわけである。これで日本全体の二〇〇二年生まれについてなにかが言えるだろうか、言えるとしたらそれはどの程度のことだろうか。

 本当は、このデータから日本全体について何事かを言うためには、まずこのサンプリングがかたよりなく、全人口からまんべんなく取られたものかどうか、吟味しないといけない。たとえば、生まれたばかりの子供に保険をかけるような人は、どちらかといえば子供を大切にしている人が多いように思えるので、その点で無作為選出した場合に比べ、少しバイアスがかかっているかもしれない(凝った名前が多くなるかもしれない)。しかし、たとえこの推定が正しいとしても、この偏りがどの程度なのか、見積もるのはとても難しい。難しいので、ここは気前よく、偏りはない、と仮定してみよう。よろしい、この統計は正しくランダムに日本を反映している。だとすれば、発表されたランキングを信用してよいか。

 無条件に信頼はできない、ということはわかる。素朴に考えても、一人二人といった人数差には大きな意味はなさそうではないか(たまたま二人ほど気を変えていたら順位が入れ替わってしまう)。サンプルの選出はランダムなので、たまたまたくさん選ばれたり、本当は多数派なのにちっとも調査対象にならなかった名前、といったものがあるかもしれない。詳細はまさに「科学の秘術」なのでここでは略するが、こういう場合、ある分布を仮定して誤差を算出することができる。原理的には二項分布になるが、一位でも人数は調査数の一パーセントに満たないので、おおむねポワソン分布に近くなる。ありうべき誤差は、こうなるだろう。

男の子女の子
名前人数名前人数
駿25±5美咲24±5
拓海23±524±5
23±5七海20±5
22±5美羽19±5
翔太20±5莉子18±5
颯太20±5美優17±5
海斗19±515±4
健太17±5美月14±4
大輝16±414±4
大樹14±4優花14±4
14±414±4

 この「±5」というのが誤差である。この場合、誤差は「この数字の中に六八パーセントの割合で入っているであろう」という意味になる。たとえば駿君の人数は、今回の調査では二五人だったが「本当の値」はどうかというと、まあ三分の二くらいの確率で二〇人から三〇人の間になるだろうなあ、というわけだ。この三分の二というのは必ずしも「高い確率でこの中に収まる」と言えないもので、たとえば上の表には二二個の名前があるから、七つくらいはこの上限下限から外れている可能性が高い。さらに言えば誤差の二倍以内、駿君なら一五人から三五人の間である確率は九五パーセントなので、これさえも外れてしまっている名前が、上の表に一つあってもおかしくないわけである。ちなみに、誤差の三倍外れる可能性は九九・七パーセントだから、まあそんなことはあまりないと言える。

 ではこの知識を持って表を見てみよう。男女とも一位から五位くらいまでは、誤差の範囲内の人数差しかないので、このとおりの順位かどうか、かなり怪しい感じがする(誤差の範囲内で容易に順位がひっくり返る)。ベストテン入りしている名前が本当はありふれた名前ではない、という可能性はあまりないと思うし、その意味で「このあたりの名前がだいたい多い」という結論を出すのには十分な統計であるけれども、八位くらいから下はほとんどダンゴ状態で、統計を取り直すたびに何が来てもおかしくないようである(一四人から一〇人までの間に男女ともに二五ぐらいの名前があがっている)。なにしろ、一位と十位の間でさえ、誤差の二倍程度だから、三パーセントくらいの確率で入れ替わる可能性があるのだ。予断を持って数値を見るのはよくないことだが、前回の順位が低いのに、これといった理由もなく大きくジャンプアップした名前(具体的には「葵」ちゃん)は、まずこの誤差を考えるべきではないかと思う。

 世の中にはさまざまな数字があり、そこにはしばしば必要な誤差が省略されている。悪意のある省略ばかりではないだろうが、誤差なしで数字をしゃべることは「この車は安全ですよ」「この牛乳は品質がいいです」と根拠なしに断定することに似て、非常に危険なことである。我々は常に報道や発表に目を光らせ、誤差を声高に補ってゆかねばならないだろう。それがあの苦しい学生実験をやりとげた人間の社会的使命ではないか。とりあえず、テキトーなアンケート結果から雑文のまことしやかな人気順位を発表している雑文サイトには、猛省を求めたい。って、それって私のことじゃないですか。


参考文献
1.明治生命の名前ランキングのページ
2.第四回「大西科学研究賞」大賞発表(ダメな例)
トップページへ
▽前を読む][研究内容一覧へ][△次を読む