最新の連続投稿…
本当に「この間に何があった!?」という話になってきます。
そしてこの時代は同時に統計学の分野において頻度主義の牙城がCT(Computed Tomograph)スキャンやスパムフィルターや純粋数理ベースのマシンラーニングが実用化される事によって崩され、ベイズ推定や統計モデリングが復興を果たした時代でもあったんですね。
#統計 「尤度」=「尤もらしさ」=「likelihood」という用語も相当にミスリーディングでかつ正常な理解を阻害していると思う。
— 黒木玄 Gen Kuroki (@genkuroki) September 18, 2019
尤度の定義は、モデルの確率分布p(x)がサンプルX₁,…,X_nを生成する確率密度p(X₁)…p(X_n)です。
これを「モデルのもっともらしさ」と呼んでしまうと~続く
#統計 続き~、まるで「モデルの正しさの度合い」のように聞こえてしまうのですが、実際には、モデルが現実世界から得られたサンプルと同じサンプルを生成する確率密度が尤度の定義なので、「モデルのサンプルへの確率的な適合度」に過ぎません。続く
— 黒木玄 Gen Kuroki (@genkuroki) September 18, 2019
#統計 続き。我々が欲しいのは、サンプルに適合するモデルではなく、サンプルを生成した未知の分布(未知の法則)に適合するモデルです。
— 黒木玄 Gen Kuroki (@genkuroki) September 18, 2019
その区別を明瞭にするためには、「モデルの尤度」と呼ばずに「モデルのサンプルへの適合度」と呼ぶ方が分かりやすいし、無用な誤解も防げると思う。続く
#統計 続き。最尤法については「有限個のパラメーターを持つ確率モデルのサンプルへの適合度を最大にするパラメーターを求める推定法」と説明することができる。
— 黒木玄 Gen Kuroki (@genkuroki) September 18, 2019
このように言い直すと、「尤度」=「もっともらしさ」という用語を使った説明の分かりにくさが明らかになると思う。
#統計 そして、過学習については「サンプルへの適合度は上昇したが、サンプルを生成した未知の分布への適合度が下がること」と説明できる。
— 黒木玄 Gen Kuroki (@genkuroki) September 18, 2019
パラメーターを増やしたり、ハイパーパラメーターを調節して、サンプル(学習データ)へのフィッティングを強化すると、過学習が比較的容易に発生する。
#統計 数学的に定義された概念を理解するときには、歴史的な経路によって固定された「尤度」=「もっともらしさ」=「likelihood」のような呼び名に惑わされることなく、定義に戻ってすなおに解釈する方が無駄に混乱せずに納得できる場合が多いと思います。
— 黒木玄 Gen Kuroki (@genkuroki) September 18, 2019
呼び名は多くの場合にミスリーディグ。
#統計 「モデルのもっともらしさ」を最尤法の「モデルのパラメーターのもっともらしさ」と言い換えても大して変わらない。
— 黒木玄 Gen Kuroki (@genkuroki) September 18, 2019
理解するべき最重要ポイントは、尤度は、我々が真に知りたいサンプルを生成した未知の分布ではなく、サンプルへの適合度に過ぎないことである。続くhttps://t.co/QiVk7Ndr4B
#統計 サンプル=データに最も良くフィットするパラメーターを探しただけなのに、「このパラメーターがもっともらしい」などと言ってしまうと誤解の原因になると思う。
— 黒木玄 Gen Kuroki (@genkuroki) September 18, 2019
どんなに過学習を起こしていても「このパラメーターがもっともらしい」と言えてしまうのは良くない。
#統計 複数のモデルの情報量規準を計算して「この中ではこのモデルがもっともらしい」と言うのであれば、「もっともらしい」という言葉を普通の意味で正しく使っていることになると思う。
— 黒木玄 Gen Kuroki (@genkuroki) September 18, 2019
尤度と情報量規準は違う。
尤度は決してもっともらしさではない。サンプル=データへの適合度に過ぎない。
#統計 まとめ:確率分布p(x)のサンプルX₁,…,X_nに関する尤度の定義は、確率分布p(x)がX₁,…,X_nを生成する確率密度p(X₁)…p(X_n)である。尤度はサンプルへの適合度を表している。サンプルへの適合度が大きくなっても、サンプルを生成した未知の分布への適合度が小さくなることがある(過学習)。
— 黒木玄 Gen Kuroki (@genkuroki) September 18, 2019
#統計 ただし、汎化誤差の計算には、未知の母集団分布が使われるので、現実の統計分析では計算できない。
— 黒木玄 Gen Kuroki (@genkuroki) September 18, 2019
そこで代わりに使われるのが、汎化誤差の推定量。汎化誤差の推定量は統計学において情報量規準と呼ばれている。
#統計
— 黒木玄 Gen Kuroki (@genkuroki) September 18, 2019
(1) モデルの分布p(x)のサンプルX₁,…,X_nへの適合度
(2) モデルの分布p(x)の未知の母集団分布への適合度 (現実の統計分析では計算不可能)
(3) モデルの分布p(x)の未知の母集団分布への適合度の推定量
の3つを区別したい。尤度と呼ばれる量は(1)である。
#統計 我々が真に欲しいモデルの分布は未知の母集団分布に近い分布なので、(3)の「モデルの分布p(x)の未知の母集団分布への適合度の推定量」(情報量規準の-1倍)を「p(x)の真のもっともらしさ」だと思った方が「もっともらしさ」という用語の統計学的な使い方として正しいように思われる。
— 黒木玄 Gen Kuroki (@genkuroki) September 18, 2019
#統計 最尤法の開発者はフィッシャーさんです。フィッシャーさんが最尤法を考えたときには、過学習の問題にも配慮している情報量規準が存在しなかったので、「もっともらしさ」を「サンプルへのフィットの度合い」として定義してしまったのは仕方がなかったかもしれません。
— 黒木玄 Gen Kuroki (@genkuroki) September 18, 2019
#統計 統計学が過学習にも配慮した真の「もっともらしさ」=情報量規準の概念を明確にするには、赤池弘次さんの登場を待つ必要があった。赤池さんの1980年の論説は非常におすすめ!
— 黒木玄 Gen Kuroki (@genkuroki) September 18, 2019
相対エントロピー、KL情報量、大偏差原理などの概念が統計学に持ち込まれた。https://t.co/CjrHB75hHv
#統計 1980年の赤池弘次さんの2つの論説https://t.co/weTcekZdjG
— 黒木玄 Gen Kuroki (@genkuroki) August 28, 2019
統計的推論のパラダイムの変遷について
赤池 弘次
1980https://t.co/foCDt7FZBK
エントロピーとモデルの尤度
赤池 弘次
1980
赤池さんによればFisherさんは尤度(ゆうど)について十分に理解していなかった。
赤池 弘次「統計的推論のパラダイムの変遷について(1980年)」
まずフィッシャーの理論の限界について論じ、ベイズ理論の基礎としての主観確率論に検討を加え、これらを統合する形で現在展開しつつある新しい統計的モデル形成の一般的傾向について略述する。
既に1980年代初頭には、こんな動きが…