ポアソン分布とポアソン回帰の怪奇な関係 ― 2025年03月03日 10:34
物事を理解するには、受け身ではなく、積極的に理解しようとする内容を出力することだという話を聞いた。出力するとは英語なら口に出したり、書き出したりすることである。統計論なら、分かりにくいポアソン分布や回帰分析とは何かということを書きだしてみることだろう。以下は直感で書いたこれらの事柄である。
統計の教科書でポアソン分布の最初に掛かれていることは、サッカーの点数とか、馬に蹴られて死亡した数とかがポアソン分布に従うという話である。まずここで普通は何のことかと思ってしまう。
これを自分なりに解釈すれば、こういうめったに起こらないことが、一定の時間内に何回生じるかを計測すると、ポアソン確率分布に従うということである。では、この場合、何が確率変数で、何がその確率分布なのかーこれが具体的なイメージができなかった。
この関数は確率変数xとその事象の平均生起回数λの式になっている。
P(X=x)= exp(-x)・λ^x/x!(1)
という理解しがたい式である。
この式の導出は教科書に譲るとして、
λは平均生起回数なのでサッカーならば多数の試合の得点の平均値であることは理解できる。ではxとはなにか、それが確率変数なのか、ここがまず分かりにくい。
X=xとは何を意味しているのか。じっくり考えるとxとは生起回数、即ち、一般的なサッカー試合における得点数ということである。これが1点ならばX=1であり、上式でxに1を代入すればあるサッカー試合で1点しか入らないという試合になる確率がでる(ことになっている)。
では、上式でλとはなにか。これは平均生起回数であり、1点なのか2点なのか3点なのか、2.5点なのか統計データが無ければ決めることはできないということである。
逆に言えば、多数の試合のデータがあり、その平均得点数λが真の値として得られたのちに、その後の同様の試合で、その試合の得点が1点(X=1)なのか、2点(X=2)なのか3点なのか(x=3)・・・・・・・をP(X=x)として計算できるということに過ぎない。
即ち、確率変数Xとはある試合における予想得点数であり、0から無限に近い数までのどの数になるかは任意である(現実的には0点から5点くらいの範囲であろうが)ーということを示す変数である。
従って、ポアソン分布では確率変数Xが大きくなるとPは無限小に近くなるグラフが一般的である。但し、各Pの合計は1になる。ようにP式はできている。
では平均生起回数(=平均得点数)はどうやって求めるのか。
これがポアソン回帰分析の役割である。
真のλというのは現実には得られないので、これまでの多くのサッカー試合の得点数を調査し、そのリストを作成する。そして、例えばあるワールドカップの試合の得点予測をするのであれば、ワールドカップクラスの過去の全試合の対戦国、ホーム・アゥエー、リーグ戦かトーナメントかなどの説明変数xjおよび目的変数(得点数)λiを対象に回帰分析をする。その回帰モデルは、
λi=exp(β0+Σjβjxij)(2)
とし、各試合ごとの合計が最も過去の実績に近くなるような分析法(最尤法)を用いて平均λを求める。ここで最尤法とは(1)式を使ったiについての積をまず求める。
これは尤度関数と呼び、この回帰係数により求められた確率関数の積は回帰係数値により変化する。
この尤度関数が最大になれば確率関数の積が最大になるので最も有りうる回帰係数になる。
直接これを求めるよりもこの尤度関数を対数変換した対数尤度
l(Θ)=Σi(-λi+xilog(λi)-log(xi!))
が最大になるような(2)式のβj(回帰係数)を計算機により繰り返し計算で求める方法である。これは尤度関数自体を最大化する計算では尤度変化が小さく計算誤差が大きくなるためである。
なお、この対数尤度の最大化計算は解析的には困難で、計算機による数値計算を繰り返すことで最適化した回帰係数を得る。
なお、サッカー試合では延長戦がなければ時間が同じなので得点率も試合ごとに同じ時間と仮定できるが、例えば、個人のがん発生数など時間依存の場合は、その個人iの生存年数tiの対数をオフセットとして(2)式の対数変換式の右辺に加えることで時間幅の相違まで考慮したポアソン回帰解析により平均λを計算できる。この場合は生存期間を暴露量として考慮したがん発生数としてλが評価できる。ポアソン回帰解析ではこの生存期間の対数値はオフセット量と呼ばれている。
また、得られた回帰係数の検定として帰無仮説と対立仮説を
H0:βk=0
H1:βk≠0
とする両側検定を行い、検定統計量は
Z=βk/標準誤差(βk)
とする。統計ソフトRでは
|Z0|としてp値を返す。このp値が有意水準α(予め0.1,0.05,0.01などを設定する)よりも小さければ帰無仮説を棄却する。
ここで
標準誤差(βk)=√(U^2/Σ(Xi-Xa)^2
ここで
U^2=Σei^2/(n-2)
ei=Yi(観測値)-Y(回帰値)
Xq:Xiの平均値
n:観測数
となる。
参考資料1)Rで学ぶ統計データ分析、本橋永至(オーム社)
参考資料2)回帰分析入門、豊田秀樹(東京図書)
統計の教科書でポアソン分布の最初に掛かれていることは、サッカーの点数とか、馬に蹴られて死亡した数とかがポアソン分布に従うという話である。まずここで普通は何のことかと思ってしまう。
これを自分なりに解釈すれば、こういうめったに起こらないことが、一定の時間内に何回生じるかを計測すると、ポアソン確率分布に従うということである。では、この場合、何が確率変数で、何がその確率分布なのかーこれが具体的なイメージができなかった。
この関数は確率変数xとその事象の平均生起回数λの式になっている。
P(X=x)= exp(-x)・λ^x/x!(1)
という理解しがたい式である。
この式の導出は教科書に譲るとして、
λは平均生起回数なのでサッカーならば多数の試合の得点の平均値であることは理解できる。ではxとはなにか、それが確率変数なのか、ここがまず分かりにくい。
X=xとは何を意味しているのか。じっくり考えるとxとは生起回数、即ち、一般的なサッカー試合における得点数ということである。これが1点ならばX=1であり、上式でxに1を代入すればあるサッカー試合で1点しか入らないという試合になる確率がでる(ことになっている)。
では、上式でλとはなにか。これは平均生起回数であり、1点なのか2点なのか3点なのか、2.5点なのか統計データが無ければ決めることはできないということである。
逆に言えば、多数の試合のデータがあり、その平均得点数λが真の値として得られたのちに、その後の同様の試合で、その試合の得点が1点(X=1)なのか、2点(X=2)なのか3点なのか(x=3)・・・・・・・をP(X=x)として計算できるということに過ぎない。
即ち、確率変数Xとはある試合における予想得点数であり、0から無限に近い数までのどの数になるかは任意である(現実的には0点から5点くらいの範囲であろうが)ーということを示す変数である。
従って、ポアソン分布では確率変数Xが大きくなるとPは無限小に近くなるグラフが一般的である。但し、各Pの合計は1になる。ようにP式はできている。
では平均生起回数(=平均得点数)はどうやって求めるのか。
これがポアソン回帰分析の役割である。
真のλというのは現実には得られないので、これまでの多くのサッカー試合の得点数を調査し、そのリストを作成する。そして、例えばあるワールドカップの試合の得点予測をするのであれば、ワールドカップクラスの過去の全試合の対戦国、ホーム・アゥエー、リーグ戦かトーナメントかなどの説明変数xjおよび目的変数(得点数)λiを対象に回帰分析をする。その回帰モデルは、
λi=exp(β0+Σjβjxij)(2)
とし、各試合ごとの合計が最も過去の実績に近くなるような分析法(最尤法)を用いて平均λを求める。ここで最尤法とは(1)式を使ったiについての積をまず求める。
これは尤度関数と呼び、この回帰係数により求められた確率関数の積は回帰係数値により変化する。
この尤度関数が最大になれば確率関数の積が最大になるので最も有りうる回帰係数になる。
直接これを求めるよりもこの尤度関数を対数変換した対数尤度
l(Θ)=Σi(-λi+xilog(λi)-log(xi!))
が最大になるような(2)式のβj(回帰係数)を計算機により繰り返し計算で求める方法である。これは尤度関数自体を最大化する計算では尤度変化が小さく計算誤差が大きくなるためである。
なお、この対数尤度の最大化計算は解析的には困難で、計算機による数値計算を繰り返すことで最適化した回帰係数を得る。
なお、サッカー試合では延長戦がなければ時間が同じなので得点率も試合ごとに同じ時間と仮定できるが、例えば、個人のがん発生数など時間依存の場合は、その個人iの生存年数tiの対数をオフセットとして(2)式の対数変換式の右辺に加えることで時間幅の相違まで考慮したポアソン回帰解析により平均λを計算できる。この場合は生存期間を暴露量として考慮したがん発生数としてλが評価できる。ポアソン回帰解析ではこの生存期間の対数値はオフセット量と呼ばれている。
また、得られた回帰係数の検定として帰無仮説と対立仮説を
H0:βk=0
H1:βk≠0
とする両側検定を行い、検定統計量は
Z=βk/標準誤差(βk)
とする。統計ソフトRでは
|Z0|としてp値を返す。このp値が有意水準α(予め0.1,0.05,0.01などを設定する)よりも小さければ帰無仮説を棄却する。
ここで
標準誤差(βk)=√(U^2/Σ(Xi-Xa)^2
ここで
U^2=Σei^2/(n-2)
ei=Yi(観測値)-Y(回帰値)
Xq:Xiの平均値
n:観測数
となる。
参考資料1)Rで学ぶ統計データ分析、本橋永至(オーム社)
参考資料2)回帰分析入門、豊田秀樹(東京図書)
コメント
トラックバック
このエントリのトラックバックURL: http://yokoyamashindo.asablo.jp/blog/2025/03/03/9758464/tb
※なお、送られたトラックバックはブログの管理者が確認するまで公開されません。
コメントをどうぞ
※メールアドレスとURLの入力は必須ではありません。 入力されたメールアドレスは記事に反映されず、ブログの管理者のみが参照できます。
※なお、送られたコメントはブログの管理者が確認するまで公開されません。