【数学ロマン】改めて尤度について。 - 諸概念の迷宮（Things got frantic）

f:id:ochimusha01:20210615004130p:plain

改めてこのサイトへの投稿の私なりの意義について。

このサイトは「認識不可能な領域を跋扈する絶対他者」を主題としており、Qiitaへの数理的投稿と二人三脚的関係にあります。

やっと大学数学初歩レベルに至ったみたいだけど、まだまだ全然人工知能について語れる段階にはありません。せめてロジスティック回帰くらいには到達せねば!!
もうね「高校数学で習った微積分概念はあくまで仮のものだった。これから先はリーマン積分の概念を覚えないと先に進めない」とか「高校数学で習ったベクトル概念はあくまで仮のものだった。これから先は行列演算の世界に踏み込まない限り先に進めない」とか、そんな話ばかりで正直気分がめげてます。

そして改めて、この話が…

「尤度」=「尤もらしさ」=「likelihood」という用語も相当にミスリーディングでかつ正常な理解を阻害していると思う。尤度の定義は、モデルの確率分布p(x)がサンプル $X_1,…,X_n$ を生成する確率密度 $p(X_1),…,p(X_n)$ です。これを「モデルのもっともらしさ」と呼んでしまうと、まるで「モデルの正しさの度合い」のように聞こえてしまうのですが、実際には、モデルが現実世界から得られたサンプルと同じサンプルを生成する確率密度が尤度の定義なので、「モデルのサンプルへの確率的な適合度」に過ぎません。

我々が欲しいのはサンプルに適合するモデルではなくサンプルを生成した未知の分布(未知の法則)に適合するモデルです。

その区別を明瞭にするためには「モデルの尤度」と呼ばずに「モデルのサンプルへの適合度」と呼ぶ方が分かりやすいし、無用な誤解も防げると思う。

最尤法については「有限個のパラメーターを持つ確率モデルのサンプルへの適合度を最大にするパラメーターを求める推定法」と説明することができる。

このように言い直すと、「尤度=もっともらしさ」という用語を使った説明の分かりにくさが明らかになると思う。そして、過学習については「サンプルへの適合度は上昇したが、サンプルを生成した未知の分布への適合度が下がること」と説明できる。

パラメーターを増やしたり、ハイパーパラメーターを調節して、サンプル(学習データ)へのフィッティングを強化すると、過学習が比較的容易に発生する。

数学的に定義された概念を理解するときには、歴史的な経路によって固定された「尤度=もっともらしさ=likelihood」のような呼び名に惑わされることなく、定義に戻ってすなおに解釈する方が無駄に混乱せずに納得できる場合が多いと思います。

呼び名は多くの場合にミスリーディグ。