最近気になったニュース。
英語を社内公用語にした楽天の三木谷浩史会長兼社長が、今度はコンピューターのプログラミング能力を社員に求めている。
近く1万7000人超の社員に、コンピュータープログラムの仕組みや、CPU(中央演算処理装置)とGPU(画像処理半導体)の違いを理解するよう求める見通しだ。プログラミング言語を記述する初級レベルのコーディング能力が必須となる。
日本のマスコミは(さらには下手したら楽天の幹部や社員ですら)「CPUとGPUの違いの理解を求める」なる言い回しの背後に機械学習技術やブロックチェーン技術を構成する「莫大なベクトル並列処理」が暗喩されているのが理解出来てない?
実は言語自体は何でも良くて、鍵を握るのはフレームワークの選択と「莫大なベクトル並列処理」の原料となるデータをどう集積するかについての計画制定能力かと。そしてここでいうデータをGPUに喰わせる際には概ね「テンソル(英tensor, 独Tensor、線形的な量または線形的な幾何概念を一般化したもので、基底を選べば、多次元の配列として表現可能だが、それ自体特定の座標系によらないで定まる対象)」へ変換を必要とするのですが、そもそもテンソル概念自体が数学、物理学、統計学、経済学、生物学、金融業界それぞれの「単純計算が不可能な(すなわち機械学習が有効な)領域」から、それぞれ異なる動機から注目され、多様で多態的な(しばしば思考様式や信念が宗教的に衝突する)アルゴリズムを発展させてきたデータ型だったという辺りがややこしいのですね。
そもそもこの分野が急にこれらの層の注目を一斉に集めた理由が「コンピューターゲームの開発競争が産んだ計算能力増大(気づくと量子コンピューティングより遥かに有望で現実的という状況に)」というのも皮肉に満ちてる訳ですが…
三木谷曲線
— hiro【100名限定特別企画】 (@2y2nlZLdE49fXxJ) March 21, 2019
最後の粘りが大きな成果を生む pic.twitter.com/j4YQfgkPtg
いずれにせよこんな抽象論で幾ら騒いでも何も見えてこず、とりあえずでも自らが立脚するスタンスを明らかにしないと採択すべきアルゴリズムも見えてこないのです。
- Amzon社といえば一見、楽天市場も多大な影響を受けた「ロングテイル(The Long Tail)」理論に伝統的に影響を受けてきた様に見える。
だが実際のAmazon社は2006年にAWS(Amazon Web Service)をリリースしてインターネット世界におけるトラフィックの主軸を画像や音声や動画にシフトさせ、Netflixへの挑戦を続けるネットドラマ制作配信会社という顔も持っている。
- Facebook社は(SNS上の各アカウントの相互交流を主題としてきた関係上)オイラーの位相幾何学を大源流とするグラフ理論を伝統的に重視してきたが、胡散臭い疑似科学めいたインフルエンサー理論に振り回されて壊滅的打撃を追う羽目に陥った。
とはいえ、これほどの巨人ともなれば転んでもただでは起きない。SmartphoneのFirstscreen化といった対応の出遅れもあって2010年代前半には一旦、TumblrやPinterestやSoundCloudといった国際SNS上に分散して存在する「関心空間(Interest Graph)」に逃げ散った子局を子会社のInstagramに呼び戻す事に成功。これをマネタイズする新たなマーケティング理論の開発に取り組み続けてきた。
- Googleは創立当初からシャノンの情報理論に重きを置いてきた事で知られる。詳細は不明だがDeep learningのFlamework環境として名高いTensrFrowのリリースや量子コンピューティングのリーディング・カンパニーとして名高いD-Wave社との提携もその一貫とされる。
SEO業者が、真に実力があるかどうかを、知るには、2つの事を訊いてみる事です。クロード・シャノンの情報エントロピーと、ウィトゲンシュタインの「哲学探求」を知ってるかと訊いてみることです。それを知らないなら、大したことないです。お金を出す価値はないです。
— 竹洞 陽一郎 (@takehora) July 19, 2014シャノンは情報の価値を情報理論で定量的に体系化したので、評価系理論の基礎として大事だと思います。Googleはウィトゲンシュタインの哲学を参考に解釈系の一部を実装しています。SEOをお仕事にしてるならご存知かと。 / “Yoic…” https://t.co/X7QNf6DxGA
— 竹洞 陽一郎 (@takehora) November 15, 2016コンテンツ(情報)の価値は、読み手の既知の情報で決まる確率分布となる。(シャノンの情報エントロピー)単語が複数の意味を持つ時に、その意味の特定する際に使われているのが、ウィトゲンシュタインの言語ゲーム / “竹洞 陽一郎さんのツ…” https://t.co/6Shnxot4zD
— 竹洞 陽一郎 (@takehora) January 17, 2019情報理論は1950年からあるものだし、大学の情報系の授業では学ぶもの。(どちらかというと信号処理の理論として学ぶ人が多いらしいけど)
— 竹洞 陽一郎 (@takehora) January 17, 2019
情報理論と情報品質をGoogleがベースに使っているのは、論文が出てるから秘密じゃない。
言語ゲームの事は、「グーグル ネット覇者の真実」って本に書いてある。アミット・シンガルは同義語に熱心に取り組んでいた検索エンジニアの1人だ。「ユーザーは検索語をよく変更する。最初に『犬の写真』と入力したのに、2度目は『子犬の写真』と検索することがある。だとすると、犬と子犬は交換可能な言葉であるということだ。
— 竹洞 陽一郎 (@takehora) January 17, 2019
― グーグル ネット覇者の真実また『水を沸かす』が、次の入力では『湯』になっている。こうして私たちはユーザーから言葉の意味について直接学べるようになった。これはすごい進歩だった」同様に、ユーザーが単語のスペルを間違えた後で検索をやり直すプロセスを分析することにより、グーグルは独自のスペルチェッカーを開発した。
— 竹洞 陽一郎 (@takehora) January 17, 2019それは検索システムに組み込まれ、たとえユーザーがスペルを間違えて入力しても、適切な検索結果を表示することが可能になった。しかし問題がないわけではなかった。
— 竹洞 陽一郎 (@takehora) January 17, 2019
― グーグル ネット覇者の真実グーグルの同義語システムは、犬と子犬はよく似た言葉で、水を沸かすと熱湯になることを理解するようになったが、「ホットドッグ」と「煮える子犬」が同じ意味であると解釈していた。
— 竹洞 陽一郎 (@takehora) January 17, 2019
― グーグル ネット覇者の真実この問題は、2002年後半にある画期的な方法によって解決されたとシンガルは語っている。哲学者のウィトゲンシュタインが、言葉は文脈によってどう定義されるかについて論じた理論を応用したのだ。
— 竹洞 陽一郎 (@takehora) January 17, 2019
― グーグル ネット覇者の真実Oracleのデータベースで商売している企業のエンジニアが、Oracleってどんな技術を使っているのかなって勉強するのと同様に、Googleの検索エンジンを土台に商売しているのであれば、当然、Googleの検索エンジンに関連するような論文やら、Googleに関する本は読んでるでしょ?という事が言いたい。
— 竹洞 陽一郎 (@takehora) January 17, 2019このあたりの理論や技術は、検索理論の四則計算みたいなもので、アルゴリズムの変化では揺らがない基本原則なんですよ。あと、検索における精度と再現率の問題とか。アバウトネスの概念とか。私の出逢いが偏っているのか、そういう基礎理論を語っているSEO屋さんに会ったことがないんですよ。
— 竹洞 陽一郎 (@takehora) January 17, 2019検索理論は、統計的検定がバックにあって、第一種の過誤、第二種の過誤をどのようにバランスするかの戦いなんですよ。だから、このあたりの統計的検定などの統計学な話はSEO屋さんから出てくるべき。アルゴリズムの変遷は、過学習との闘いですよ。データの方が、SEOでモデルに寄ってくるんだもの。
— 竹洞 陽一郎 (@takehora) January 17, 2019新井紀子先生の「AI vs 教科書が読めない子どもたち」という本の中で、「偶数と奇数を足すと、答えはどうなるでしょうか?次の選択肢のうち正しいものに〇を記入し、そうなる理由を説明してください。」という問題についての誤答の事が書いてあります。答えは、もちろん、「いつも必ず奇数になる」。
— 竹洞 陽一郎 (@takehora) January 17, 2019その理由の解答例として
— 竹洞 陽一郎 (@takehora) January 17, 2019
「偶数と奇数は、整数m、nをもちいて、それぞれ2m、2n+1と表すことができる。そして、この2つの整数の和は
2m+(2n+1)=2(m+n)+1となる。m+nが整数なので、これは奇数である。」
と書いてあります。これが「証明」。でも、大学入試を終えた大学生を中心とした調査での正答率は34%。理系に限定すると、46.4%。
— 竹洞 陽一郎 (@takehora) January 17, 2019
酷い誤答の例として、以下の解答を掲載していらっしゃいます。
例1:
2+1=3、4+5=9のように。
これは「例示」。
例2:
全部やってみたらそうなった。私が出逢ってきたSEO屋さんは、この「例示」だったり、例2のような事を仰る方が多く、理論ベースの「証明」に至っていないケースが多いわけですよ。もちろん、Googleが実装してるわけだから、証明は無理でしょう。でも、その理論関係は、Googleのエンジニア達が学会に論文として出してますよ。
— 竹洞 陽一郎 (@takehora) January 17, 2019もちろん、2020年4月1日施行の改正民法債権法では、サービスについても「売買」として、品質保証が求められるわけですから、SEO屋さんは、どのように品質検査・品質保証をするのかなと、興味津々で見ております。
— 竹洞 陽一郎 (@takehora) January 17, 2019
まだ別にどの会社の「信念(Belief)」が優れてるか証明された訳でもありませんが(実際、最近こうしたアプローチの焦点の一つととなってるマルコフ連鎖モンテカルロ法(MCMC)の入門書に目を通したら、解説が数学屋や物理屋や電気屋や統計屋や金融屋が互いの立場から殴り合う壮絶な異種格闘技バトルロイヤル戦のステージに成り果てていた)、現時点でこうした「宗教戦争」に参入すらしてないのは本当にマズいと思います。実際AGFAの一員に数えられながら、こういう方面で全然話題とならないAppleについて「まさか経営畑出身のティム・クックはこの戦いをExelシート活用で乗り越えようとしてるのか!?」なんて冗談まで言われてるほどで…さらに皮肉なのはExelマクロが案外強力で、実際頑張れば(RとかPythonとかJuliaみたいな最新言語を学ぶまでもなく)その枠内で必要なアルゴリズムの習得と運用が良い線まで出来ちゃう辺り…