「自分の思考には数理が決定的に足りてない」と痛感した2017年以降の猛勉強の結果、最近になってやっとなんとか辿り着いたのがこの図式?
①これまで用いてきた「三昧(空即是色)=蒙昧(色即是空)」モデルは、龍樹「中論」より出発し「天動説パラダイムから地動説パラダイムへ」「ユークリッド幾何学から非ユークリッド幾何学へ」「ニュートン物理学から量子力学へ」のパラダイムシフトを説明する内容。考え方の鍵となるのは「既存の観察結果をそれなりに上手く説明する三昧世界」と「その外側よりこの枠組みを破壊する様な新たな観測結果をもたらし得る絶対他者としての蒙昧世界」が実際には表裏一体で結びつき、全体として「縁起世界」を構築してるという構想。この考え方を大規模言語モデルに適用すると「言語空間=分布意味論に基づく可能世界」を「現在の言語空間に組み込む意味を喪失し排除された過去概念集合」と「まだ現在の言語空間に組み込まれてない未来概念集合」の二つの絶対他者領域が現れる。
いわゆる「Problem(問題)計画(Plan)Data(データ)Analysis(分析)Conclusion(結論)サイクル」をこのモデルに射影すると「(解釈集合たる)三昧世界から(観察結果集合たる)蒙昧世界へのトップダウン形アプローチ」と「蒙昧世界から三昧世界へのボトムアップ形アプローチ」の二系列に考え方が整理される(上図)。
ここでここで既存パラダイムのトップダウン形追証しか認めず、ボトムアップ型検証の結果としてのパラダイムシフトを徹底して拒絶し抜く姿勢を権威主義的パラダイム(Authoritarian Paradigm)と呼ぶ事にする。「叙事詩イーリアスに登場する伝説の古代都市トロイアを探し続けたシュリーマン」「伝説の夏王朝の実在を証明する事を民族的責務と考えている中国考古学者」辺りがこれに該当しよう。ちなみに「商売には必ず元手が必要になる」前提により逆は存在しない。
今回の投稿の発端は以下のTweet。
こちらでした①これからの時代は高校生までに統計学の基礎知識を習う様になる。②そのレベルについていけない人間は、以降それなりにしか扱われなくなる、という話ですが…https://t.co/L7McKct7Rw
— Yasunori Matsuki (@YazMatsuki) 2023年6月23日
たまたまもっと激烈な「21世紀を生き延びたければ、小学生から統計の基礎知識を備えねばなりません」なる檄文めいた児童書の紹介文が回ってきました。「こども統計学」。さっそくKindleで購入して読破。https://t.co/LiNQIK9ks8
— Yasunori Matsuki (@YazMatsuki) 2023年6月23日
先に「檄文」と書きましたが、数式など登場せず、内容も「視聴率の話」以外は記述統計の基礎レベルなのですが、とにかく「統計学的考え方」を叩き込み、それからの逸脱を戒め続ける姿勢が凄まじい。
— Yasunori Matsuki (@YazMatsuki) 2023年6月23日
「大人達は統計についてこういう世界的決まりを教わりませんでした。だからきっと聞いてもちゃんと答えられないでしょう」。「でも大人になって外国人と話す時、あなた達はそれでは許されないのです」。ついてけない大人は完全に捨て去っていくスタンス…
— Yasunori Matsuki (@YazMatsuki) 2023年6月23日
ここまで踏み込むならいっそプログラミングとセットで教える方が効率的かもしれず、実際それを試みる小学校や塾が現れるのは時間の問題と思われます。https://t.co/RVPzwdAd22
— Yasunori Matsuki (@YazMatsuki) 2023年6月23日
というか実際私はそうやって記述統計と推測統計の基礎を再勉強し直したのですが「使用関数とそのパラメーター設定→グラフ出力」の形で頭に入るので非常に効率が良いのですね。ちなみにこの本では「ヒストグラム」「散布図」「箱ひげ図」を統計三大グラフとするのですが…https://t.co/PgBH5GDxSi
— Yasunori Matsuki (@YazMatsuki) 2023年6月23日
①ヒストグラム(離散型度数分布表)の肝は「分布状況をよく表す離散単位の決定」なのだけど、正直難しい計算を覚えるより、計算はコンピューターに任せ試行回数を増やした方が欲しい出力に辿り着くのが早い。 pic.twitter.com/lR9VioB5rC
— Yasunori Matsuki (@YazMatsuki) 2023年6月23日
②離散図は「連続均等分布=中心から等距離で一周=円弧」のイメージから出発し、これが回転状態によって線に見えたり円に見えたりすると想定する事で相関係数の概念に辿り着く。これはもうコンピューターで実際に動かして結果を観察するのが一番の近道。 pic.twitter.com/kBdASw8WyN
— Yasunori Matsuki (@YazMatsuki) 2023年6月23日
③「箱ひげ図」の場合、得たいイメージを得るには実際のプロットに際して「足切り域」を設定する必要があるが、こういうのもとりあえずコンピューターに丸投げ出来る。まぁズボラって言えばズボラなんですが、逆を言えば本文中で執拗に教示され続ける「見やすいグラフ」の暗黒面みたいなもの? pic.twitter.com/uTjwKbftoP
— Yasunori Matsuki (@YazMatsuki) 2023年6月23日
で、実際の検証過程については伝統的な統計的仮説検定理論なんてすっ飛ばしていきなり「Problem(問題)計画(Plan)Data(データ)Analysis(分析)Conclusion(結論)」。しかももう2010年代から小学校で採用済みだった模様。https://t.co/RqplEf3vaB
— Yasunori Matsuki (@YazMatsuki) 2023年6月23日
ちなみに冒頭で引用したやり取りに当て嵌めると「問題」…以前から米国アニメ漫画ファンの間での「日本の学園ラブコメ」人気は実感してきたし、実際最新ランキングにも現れている。「計画」…英語版tumbrおよびTwitterで実際に観測可能か確かめる。 pic.twitter.com/WiZrQ5aGS7
— Yasunori Matsuki (@YazMatsuki) 2023年6月23日
「実測および分析」…Twitter英語投稿の参照数において、概ね「仮面Rider系(数万)」「学園ラブコメ(数十万)」「最新米国人気コンテンツ(数百万)」の様な等級が存在する事が確認された。「結論」…計画段階で想定された目的はそれなりに達成されたといえるが、ただし…
— Yasunori Matsuki (@YazMatsuki) 2023年6月23日
①同じ学園ラブコメでもTwitterでは「俺ガイル」「とらドラ」「カレカノ」の様な旧タイトル、tumbr上では今季放送作品の人気が高かった。②マンダロリアン、アクロース・ザ・ユニバース、仮面ライダーが好調で、デッドプール、戦隊物、ウルトラマンが不調…
— Yasunori Matsuki (@YazMatsuki) 2023年6月23日
The FlashはTwitterでもTumbrでも全般的に不調だったが、Twitterにのみスーパーガール人気あり。これらが単なる観測誤差か、Twitterやtumbrの利用層の反映なのか確かめるのがこれからの課題(結論→問題=PPDACサイクル2周目)といった感じ?
— Yasunori Matsuki (@YazMatsuki) 2023年6月23日
「こども統計学」著者のインタビュー記事。語ってる内容が完全に本の内容と重なりますね。必読。https://t.co/jwmpExqtZb
— Yasunori Matsuki (@YazMatsuki) 2023年6月23日
それにつけてもtumbr…復興途上のせいでTwitterの日英圏に比べて全体規模がまだ1/10にも届いてないんじゃないかという反応数の上、作品への反応が特殊過ぎる…元々(メインアカでは隠し通さねばならない様な)特殊な願望を果たす為の匿名サブアカとしてスタートしてるせいもある?
— Yasunori Matsuki (@YazMatsuki) 2023年6月23日
そして…
ヒストグラム(離散型度数分布表)数理メモ。そう、ここでいう「分布状況をよく表す離散単位」を階級(Rank)と呼ぶのでした。基礎の基礎から忘れてる… https://t.co/4iFLNvDoL4
— Yasunori Matsuki (@YazMatsuki) 2023年6月24日
そしてヒストグラムのプロッティングの基本は「横軸が階層。縦軸が度数」。①縦軸と横軸が原則として非可換?②くじ引き(階級により獲得賞金が異なる)概念から期待値計算が始まる。③(対象を短冊状に分解し台形公式につながる)区分求積法と内容が相似している。https://t.co/uQxCVWQG2L
— Yasunori Matsuki (@YazMatsuki) 2023年6月24日
①ヒストラムの各階層を度数の多い順に並び替える。②これをその順番で足し合わせていく(累積相対度数)。その結果出来上がるのがいわゆる「パレート図」。パレートの法則(80対20の法則)=ある事象の要因の2割が全体の成功を決めるという考え方に由来。時系列によるプライオリティの変遷も追える。 pic.twitter.com/2HDdnUmbqo
— Yasunori Matsuki (@YazMatsuki) 2023年6月24日
「階級幅の決め方」…①「テストの得点」「身長」などは10進法(Σ10^n)でざっくり決められる。②オイラーの多面体定理に従う均等分布(いわゆるサイコロ。コイン(2面体、4面体、6面体、8面体、12面体、球面)。③例えばスタージェスの法則1+log(n,base=2)。ただし万能ではない。https://t.co/ExeOs0iWag
— Yasunori Matsuki (@YazMatsuki) 2023年6月24日
ヒストグラムの横軸と縦軸が可換なら直積グラフに。①1次元では「ある度数の元に対して、足すと0になる逆元が必ず存在する」。要するに借方と貸方が必ず対応する複式簿記簿記の世界。②2次元では次元出現順序にこだわるなら順列問題、こだわらないなら組み合わせ問題となる。https://t.co/1apBAP4aqp
— Yasunori Matsuki (@YazMatsuki) 2023年6月24日
へぇ結構、考え方の取りこぼしがあるなぁ。「小学生まで戻ってやり直す」価値あるわ、これ…
— Yasunori Matsuki (@YazMatsuki) 2023年6月24日
そして階級計算の種類まとめ。平均などを求める時には「階級値」を使う。https://t.co/5oLntRDP8y
— Yasunori Matsuki (@YazMatsuki) 2023年6月28日
そんな感じで以下続報…