諸概念の迷宮(Things got frantic)

歴史とは何か。それは「専有(occupation)=自由(liberty)」と「消費(demand)=生産(Supply)」と「実証主義(positivism)=権威主義(Authoritarianism)」「敵友主義=適応主義(Snobbism)」を巡る虚々実々の駆け引きの積み重ねではなかったか。その部分だけ抽出して並べると、一体どんな歴史観が浮かび上がってくるのか。はてさて全体像はどうなるやら。

【数学ロマン】やっと名前が分かった「確率楕円」

これまで遊び場にしていた小山の正体が巨大恐竜の化石だった事が判明した気分…

image.gif

image.gif

ただし、判明したのはあくまで「円盤に正規分布を射影した場合の円盤の呼称」であって、正規分布が射影されてないオリジナルをどう呼ぶかは不明のままです。

JMP ヘルプ「確率楕円」

確率楕円は、確率密度が等しいところを示す等高線です。また、信頼領域を示す等高線でもあります。二変量正規分布を仮定した上で、指定された割合だけ母集団においてデータが含まれる領域を表しています。

確率楕円は、2変数間の相関を調べるのに役立ちます。2変数間の相関が1または-1へ近付くにつれて、楕円は対角線方向に長くなります。2変数に相関がない場合、楕円は(対角線方向に伸びず)水平もしくは垂直に伸びます。 

どうやら主成分分析(PCA=Principal Component Analysis)が行っているのは、共分散行列(Variance-Covariance Matrix)からのその検出みたいです。

私が思いついた様に複素平面上の周期単位(Cycle Unit)として繰り返すのではなく、一次関数Y=Xを軸にN次元化していく発想(Concept)ですね。初めて主成分分析が何をしてるか判った…

主成分を与える変換は、第一主成分の分散を最大化し、続く主成分はそれまでに決定した主成分と直交するという拘束条件の下で分散を最大化するようにして選ばれる。主成分の分散を最大化することは、観測値の変化に対する説明能力を可能な限り主成分に持たせる目的で行われる。選ばれた主成分は互いに直交し、与えられた観測値のセットを線型結合として表すことができる。言い換えると、主成分は観測値のセットの直交基底となっている。主成分ベクトルの直交性は、主成分ベクトルが共分散行列あるいは相関行列)の固有ベクトルになっており、共分散行列が実対称行列であることから導かれる。

(1, 3) を中心とし(0.866, 0.5) 方向の標準偏差3、それに直交する方向の標準偏差1の多変量正規分布に従うデータセットに対する主成分分析の結果。矢印で示される 2 つベクトルは共分散行列固有ベクトルであり、ベクトルの長さはそれぞれの固有ベクトル固有値平方根に等しくなるようにスケールされている。また 2 つの固有ベクトルは分布の中心(平均)が原点となるように配置してある。

  • これらのベクトルが自明の場合(Trival Case)として直交する話が出てきますね。球表面上の対蹠一対が、平面上では1回直角に曲がる事で(いわゆる「ターレスの定理」)、球表面上では2回直角に曲がる事で(四元数の特徴の一つ)結ばれる現象と密接な関係がある様だ?
  • そうやって対蹠(すなわちこれを基準にデカルト座標展開すると座標{±x,0,0}{0,±y,0}{0,0,±z}に割り振られる位置)側から眺めていると「(ジンバルロックの原因となる)ヤコビ行列の死体」しか漂着しなくて「この数理、一体何の役に立つんだろう?」とか首を傾げていたんですが(何かこう、コーラ瓶を拾った草原の原住民ブッシュマンみたいな感じ)、過去投稿を読み返すとそういう私は割と早い段階で四元数(Quaternion)q=w+ix+jy+kzq=(w+ix)+(y+iz)j に分解する正規分割(Ortho-split/Sympletic Form)概念に偶然到達して、プログラム中ではこれを用いてグリグリ円盤を回転させてるんですね。まさしくSFファン好みのファースト・コンタクト/異文化交流展開。独学は、これがあるから面白いのです(当然、無駄で不毛な迷走も多いけど)。

    四元数のRでの扱い~onionパッケージ~

これらを複数組み合わせたのが混合ガウスモデルで、ベイズの定理とも関係してくる部分となる様です。

k-means_anim_final.gif 

混合分布問題

EMアルゴリズム統計学では古くから知られている手法でありDempsterらに
よって一般的に定式化された。音声認識でも隠れマルコフモデルBaum-Welchアルゴリズムとして実用的に用いられている。最近、 画像の隠れマルコフモデルへの応用やニュ-ラルネットモデルの一つであるボルツマンマシンの学習アルゴリズムとの関係、およびJordanらによるHierarchical Mixtures of Experts(HME)と呼ばれるモデルの提案などがあり注目を浴びている。またAmariは幾何学的な観点からアルゴリズムを特徴づけた。

ベイジアンになろう

ベイズの定理は、ある結果E原因 {A1,A2,A3,…An}(n個の排反)の関係について結果の確率(事前確率)と原因の確率(事後確率)の推移を明らかにする。

例題

同一の製品をつくっている3個の機械A,B,Cがあるとする。

  • A,B,Cは全製品のそれぞれ30%, 25%, 45%を生産する。
  • A,B,Cの製品中の不良品の割合は,それぞれ1%, 1.2%, 2%であるとする。

いま,全製品中から1個の製品をとりだしたとき,それが不良品であったという。この製品がA,B,Cのそれぞれの機械から生産された確率を求めよ。

これ記憶が正しければ確か「全機械の生産分担率(合計100%)を縦軸不良品率(合計4.2%)を横軸に置いて面積を求める」みたいなイメージで解く筈。その過程で影響力の大きさが比較可能になって、影響力の小さな因子の切り捨てが可能になるとか、そういう感じ(あえて何も調べず、うろ覚えのまま書いてます。実際に本格的に調べた後で認識のズレを楽しむ為に!!)。とにかくフーリエ変換(Fourier analysis)がSine波の足し合わせで様々な波形を再現する様に正規分布の様な単純な分布の足し合わせで複雑な分布を再現しようとする試みがあるという事。

とにかく大量のキーワードが手に入ったので、来年もこのブログに投稿するネタに困る事はない様です(それどころか全然記事化が追いつかなくて焦ってる)。そんな感じで以下続報…