統計論がピンとこない訳2021年09月22日 06:05

 ある米国大統領が言った言葉であるが、嘘には3種あり、一つは大きな嘘、二つ目は小さな嘘、三つめが統計だそうである。
 統計が常に嘘だとは断定できないが、直感的に理解できないとそのように感じられるかもしれない。

 統計論では確率事象を扱うため、因果関係がわかるのではないかと勘違いすることが多い。
 統計論は相関関係のある事象を対象とする数学であって、物理現象を説明するものではないことを認識する必要がある。決して因果関係が統計的処理で分かると期待してはいけない。

 物理は再現性があり、常に同じ法則が成立することを目指しているから、因果関係は明確であるべきである。一方、統計論では、生じた事象の因果関係は問題にしない。単に、事象の確率が分かっているだけである。それが、事象の性質によりさまざまな確率分布として処理可能であるという数学的操作の対象になりうるというだけである。

 正規分布であれば、例えば測定値は真値を中心に分布するから、測定誤差が正規分布するという感覚は理解できる。但し、その測定値がなぜ真値から正規分布としての誤差を生じたか物理的説明はできない。
 ポアソン分布ならどうだろう。ポアソン分布では、生起確率の小さい事象が、多数回試行したときに何回成功するかを表す確率分布である。
(これだけでも十分分かりにくい。何をいっているのか例示しないと理解できない。)
 例えば、サッカーの試合の得点数はポアソン分布に従うと言われている。確かにサッカーの1試合当たりの得点数は少なく、0点から数点までが殆どであろうが、多くの試合の得点数を横軸に、縦軸をその試合数としてプロットしてみる。全試合平均得点をλとすると、縦軸にプロットした試合数の分布形がλで規定されるポアソン分布をすることが分かっている。
 なぜなのか。これは、物理ではなく、時間又は空間を細分化したばあいに独立に一定確率で生起する事象を数学処理した結果に過ぎないからである。(サッカーの得点であれば、得点になるかどうかは各シュートごとに独立な事象であることに相当している。)そこに、物理的因果関係を持ち込もうとしてもできない相談であることを最初から認識しておくことである。この認識がないと無駄な悩みを抱えることになる。
 
 即ち、統計論を持ち込むということは最初から因果関係の説明をあきらめる、或いは、因果関係が不明であっても、役立ちそうな事象予測をおこなうためにある(サッカーの得点ボードが一桁で多くの試合では十分であることなどを判断できる)ーーと考えれば統計論での説明を納得はできなくても仕方ないとは思えるだろう。

 では、新型コロナウイルス感染者数予測はどうなのか。医療統計では、様々な条件をパラメータに予測式を立てているようである。因果関係がある程度ある場合もあろうが、多くは物理的な因果関係は分かっていない流行現象を対象としている。これも、経験を積んで確率分布式、予測式の精度向上に努める以外にはないというのが、現状の医学のレベルだと納得する以外にないであろう。
 SF作家小松左京は「復活の日」でパンデミックがありうると予測し、現実にはほとんどの国、機関が今回の新型コロナパンデミックを予測できてはいなかった。これも医学、生物学の未発達による因果関係の知識の不十分さによるとあきらめざるを得ないが、この2年の経験とデータの統計的利活用で、来年こそは予測可能な世界になっていることを期待したい。

コメント

コメントをどうぞ

※メールアドレスとURLの入力は必須ではありません。 入力されたメールアドレスは記事に反映されず、ブログの管理者のみが参照できます。

※なお、送られたコメントはブログの管理者が確認するまで公開されません。

名前:
メールアドレス:
URL:
コメント:

トラックバック

このエントリのトラックバックURL: http://yokoyamashindo.asablo.jp/blog/2021/09/22/9425901/tb

※なお、送られたトラックバックはブログの管理者が確認するまで公開されません。