【もっともらしさの罠】尤度（ゆうど）なる統計科学上の概念の限界について。

最新の連続投稿…

本当に「この間に何があった!?」という話になってきます。
f:id:ochimusha01:20190617060610j:plain

そしてこの時代は同時に統計学の分野において頻度主義の牙城がCT（Computed Tomograph）スキャンやスパムフィルターや純粋数理ベースのマシンラーニングが実用化される事によって崩され、ベイズ推定や統計モデリングが復興を果たした時代でもあったんですね。

#統計「尤度」=「尤もらしさ」=「likelihood」という用語も相当にミスリーディングでかつ正常な理解を阻害していると思う。

尤度の定義は、モデルの確率分布p(x)がサンプルX₁,…,X_nを生成する確率密度p(X₁)…p(X_n)です。

これを「モデルのもっともらしさ」と呼んでしまうと～続く
— 黒木玄 Gen Kuroki (@genkuroki) September 18, 2019

#統計続き～、まるで「モデルの正しさの度合い」のように聞こえてしまうのですが、実際には、モデルが現実世界から得られたサンプルと同じサンプルを生成する確率密度が尤度の定義なので、「モデルのサンプルへの確率的な適合度」に過ぎません。続く
— 黒木玄 Gen Kuroki (@genkuroki) September 18, 2019

#統計続き。我々が欲しいのは、サンプルに適合するモデルではなく、サンプルを生成した未知の分布(未知の法則)に適合するモデルです。

その区別を明瞭にするためには、「モデルの尤度」と呼ばずに「モデルのサンプルへの適合度」と呼ぶ方が分かりやすいし、無用な誤解も防げると思う。続く
— 黒木玄 Gen Kuroki (@genkuroki) September 18, 2019

#統計続き。最尤法については「有限個のパラメーターを持つ確率モデルのサンプルへの適合度を最大にするパラメーターを求める推定法」と説明することができる。

このように言い直すと、「尤度」=「もっともらしさ」という用語を使った説明の分かりにくさが明らかになると思う。
— 黒木玄 Gen Kuroki (@genkuroki) September 18, 2019

#統計そして、過学習については「サンプルへの適合度は上昇したが、サンプルを生成した未知の分布への適合度が下がること」と説明できる。

パラメーターを増やしたり、ハイパーパラメーターを調節して、サンプル(学習データ)へのフィッティングを強化すると、過学習が比較的容易に発生する。
— 黒木玄 Gen Kuroki (@genkuroki) September 18, 2019

#統計数学的に定義された概念を理解するときには、歴史的な経路によって固定された「尤度」=「もっともらしさ」=「likelihood」のような呼び名に惑わされることなく、定義に戻ってすなおに解釈する方が無駄に混乱せずに納得できる場合が多いと思います。

呼び名は多くの場合にミスリーディグ。
— 黒木玄 Gen Kuroki (@genkuroki) September 18, 2019

#統計「モデルのもっともらしさ」を最尤法の「モデルのパラメーターのもっともらしさ」と言い換えても大して変わらない。

理解するべき最重要ポイントは、尤度は、我々が真に知りたいサンプルを生成した未知の分布ではなく、サンプルへの適合度に過ぎないことである。続くhttps://t.co/QiVk7Ndr4B
— 黒木玄 Gen Kuroki (@genkuroki) September 18, 2019

#統計サンプル=データに最も良くフィットするパラメーターを探しただけなのに、「このパラメーターがもっともらしい」などと言ってしまうと誤解の原因になると思う。

どんなに過学習を起こしていても「このパラメーターがもっともらしい」と言えてしまうのは良くない。
— 黒木玄 Gen Kuroki (@genkuroki) September 18, 2019

#統計複数のモデルの情報量規準を計算して「この中ではこのモデルがもっともらしい」と言うのであれば、「もっともらしい」という言葉を普通の意味で正しく使っていることになると思う。

尤度と情報量規準は違う。

尤度は決してもっともらしさではない。サンプル=データへの適合度に過ぎない。
— 黒木玄 Gen Kuroki (@genkuroki) September 18, 2019

#統計まとめ：確率分布p(x)のサンプルX₁,…,X_nに関する尤度の定義は、確率分布p(x)がX₁,…,X_nを生成する確率密度p(X₁)…p(X_n)である。尤度はサンプルへの適合度を表している。サンプルへの適合度が大きくなっても、サンプルを生成した未知の分布への適合度が小さくなることがある(過学習)。
— 黒木玄 Gen Kuroki (@genkuroki) September 18, 2019

#統計ただし、汎化誤差の計算には、未知の母集団分布が使われるので、現実の統計分析では計算できない。

そこで代わりに使われるのが、汎化誤差の推定量。汎化誤差の推定量は統計学において情報量規準と呼ばれている。
— 黒木玄 Gen Kuroki (@genkuroki) September 18, 2019

#統計

(1) モデルの分布p(x)のサンプルX₁,…,X_nへの適合度

(2) モデルの分布p(x)の未知の母集団分布への適合度 (現実の統計分析では計算不可能)

(3) モデルの分布p(x)の未知の母集団分布への適合度の推定量

の3つを区別したい。尤度と呼ばれる量は(1)である。
— 黒木玄 Gen Kuroki (@genkuroki) September 18, 2019

#統計我々が真に欲しいモデルの分布は未知の母集団分布に近い分布なので、(3)の「モデルの分布p(x)の未知の母集団分布への適合度の推定量」(情報量規準の-1倍)を「p(x)の真のもっともらしさ」だと思った方が「もっともらしさ」という用語の統計学的な使い方として正しいように思われる。
— 黒木玄 Gen Kuroki (@genkuroki) September 18, 2019

#統計最尤法の開発者はフィッシャーさんです。フィッシャーさんが最尤法を考えたときには、過学習の問題にも配慮している情報量規準が存在しなかったので、「もっともらしさ」を「サンプルへのフィットの度合い」として定義してしまったのは仕方がなかったかもしれません。
— 黒木玄 Gen Kuroki (@genkuroki) September 18, 2019

#統計統計学が過学習にも配慮した真の「もっともらしさ」=情報量規準の概念を明確にするには、赤池弘次さんの登場を待つ必要があった。赤池さんの1980年の論説は非常におすすめ！

相対エントロピー、KL情報量、大偏差原理などの概念が統計学に持ち込まれた。https://t.co/CjrHB75hHv
— 黒木玄 Gen Kuroki (@genkuroki) September 18, 2019

#統計 1980年の赤池弘次さんの2つの論説https://t.co/weTcekZdjG
統計的推論のパラダイムの変遷について
赤池弘次
1980https://t.co/foCDt7FZBK
エントロピーとモデルの尤度
赤池弘次
1980

赤池さんによればFisherさんは尤度(ゆうど)について十分に理解していなかった。
— 黒木玄 Gen Kuroki (@genkuroki) August 28, 2019