【雑想】最小二乗法（least squares method）」の思わぬ側面？

æå°äºä¹æ³ã®å°åº

へぇ、人工知能関連話題でも時々その名の上がる「最小二乗法（least squares method）」に思わぬ側面が？

#統計最小二乗法の話。添付画像はそれぞれhttps://t.co/wDYCFLrd9h https://t.co/mvzbu8dLCv
↓https://t.co/LqawAkxHld

より。

「最小二乗法はBLUEなので、いつでも使える」とか「最小二乗法は確率モデルを仮定しない」と思っている人達がいるようですが、ひどく誤解していると思います。続く pic.twitter.com/nrizOJi99y
— 黒木玄 Gen Kuroki (@genkuroki) September 12, 2019

#統計そういう誤解をしている人達は「最小二乗法は残差を正規分布でフィッティングする推定法であること」を勉強し直すと同時に、そのように誤解した理由を公開して後輩たちが同じ誤解に陥らないようにする義務があると思う。
— 黒木玄 Gen Kuroki (@genkuroki) September 12, 2019

#統計正規分布モデルによるフィッティングは、母集団分布が正規分布でなくても、平均(最小二乗法の場合は回帰直線や回帰曲線)と分散をサンプルサイズ→∞で正しく推定してくれるのですが、有限のサンプルサイズでは誤差が他の推定法より大きくなる可能性があります。
— 黒木玄 Gen Kuroki (@genkuroki) September 12, 2019

#統計要するに、最小二乗法は、残差の母集団分布が正規分布でなければ、"best"な推定法ではないのです。BLUEのLは線形性を意味し、線形な推定などほとんどありません。

残差の様子を見て、正規分布に見えない場合には、最小二乗法は不適切な推定法になります。

最小二乗法は正規分布モデルの一種！
— 黒木玄 Gen Kuroki (@genkuroki) September 12, 2019

#統計「最小二乗法は確率モデルを仮定しない」とか「最小二乗法はBLUEなので母集団分布に何も仮定しなくても使える」というような誤解が生じるのは、教科書レベルで統計学教育に問題があるからだと思われます。「最小二乗法がBLUEであること」の強調はミスリーディングだと思う。
— 黒木玄 Gen Kuroki (@genkuroki) September 12, 2019

#統計関連https://t.co/2CkkJOCSzC
— 黒木玄 Gen Kuroki (@genkuroki) September 12, 2019

#統計関連https://t.co/Xp3vGgUGZT
— 黒木玄 Gen Kuroki (@genkuroki) September 12, 2019

#統計サンプルX₁,…,X_nに正規分布モデル p(x|μ,σ²)=exp(-(x-μ)²/(2σ²))/√(2πσ²) の最尤法を適用すると解は

μ=(サンプル平均), σ²=(サンプル分散)

になります。μとσ²はn→∞でサンプルを抽出した母集団分布の平均と分散に収束します。母集団分布が正規分布である必要はない。

続く
— 黒木玄 Gen Kuroki (@genkuroki) September 12, 2019

#統計しかし、正規分布モデルによるそのような推定は、母集団分布が正規分布でない場合には、有限のサンプルサイズnでの誤差が非常に大きくなる可能性があります。

可能な限りのベストを尽くして、適切な確率モデルを使った推定を行うべきだと思います。
— 黒木玄 Gen Kuroki (@genkuroki) September 12, 2019

#統計仮に私が「最小二乗法がBLUEである」という主張を仕事の講義でするならば、「ほとんどの推定法は非線形なのでこの結果に実用的な意味はほとんどない」と言うと思います。

そして、「最小二乗法は正規分布モデルの一種である」という事実を正直に説明する。
— 黒木玄 Gen Kuroki (@genkuroki) September 12, 2019

#統計最小二乗法の計算は簡単な線形代数に過ぎないので、最小二乗法を使っている人の多くは正規分布モデルをどこでも使っていないと感じているでしょうが、数学的に最小二乗法が正規分布モデルの一種とみなせることは誰も否定できない事実なので、実質的に正規分布モデルを使っていることになります。
— 黒木玄 Gen Kuroki (@genkuroki) September 12, 2019

#統計「最小二乗法の使用者が正規分布モデルを使用していることに気付いていないこと」と「サンプルの平均と分散を計算した人が正規分布モデルを使っているとは思っていないこと」は本質的に同じような話。

確率モデルを使っていないと思っていても実際には使っている。https://t.co/ydh3hxlDqG
— 黒木玄 Gen Kuroki (@genkuroki) September 12, 2019

#統計サンプルの平均と分散ではなく、サンプルの中央値と中央値との差の絶対値の平均(中央値を中心としたばらつき方の指標)をサンプルの記述統計量として計算してしまった人は実質的にLaplace分布

p(x|a,b) = exp(-|x-a|/b)/(2b)

によるフィッティングを行なっていることになります。
— 黒木玄 Gen Kuroki (@genkuroki) September 12, 2019

#統計要するに、サンプルの平均や中央値を求めてばらつき方の適切な指標を計算することの背後には、それぞれ正規分布モデルとLaplace分布モデルが隠れているわけです。

それらは極めて特殊な確率モデルに過ぎず、記述統計を考える場合でさえ、無数の確率モデルに想いを馳せる必要があると思う。
— 黒木玄 Gen Kuroki (@genkuroki) September 12, 2019

#統計そして、母集団から抽出したサンプルだけを用いた純粋な統計分析だけで、適切な確率モデル(未知の母集団分布を記述できるモデル)を見付けることは不可能であり、「見付けよ」という問題は不良設定問題です。

そういう不良設定問題にどのように合理的に立ち向かうかが統計学における基本問題。
— 黒木玄 Gen Kuroki (@genkuroki) September 12, 2019

色々検索してみた結果、到達したのがこのサイト…

これからこの内容に取り組んでいきたいと思います（随時更新）。