かえるのクーの助手たち

我々は賢くないので。。。

アルファゼロはわたくし的に技術的特異点です

やっぱり最大級に驚かざるをえません

助手の「井戸中 聖(いとなか あきら)」です。 

困惑しているので、あまり書けないのですが、「気持ち」を書くのが「はてぶ」のいいところだと思っていますので、正直な気持ちを書きます。

f:id:AssistantOfKoo:20180128125114j:plain

アルファゼロ(Alpha Zero)が、先々代のアルファGOを100-0で破った情報は最初は軽く流して読んでいました。

技術革新のまっただなかなので、Googleの人材、計算資源をつかえば驚くことではないと思っていました。そんなには大騒ぎになっていないので、「後でみよう」になってました。

f:id:AssistantOfKoo:20180128124920j:plain

Mastering the game of Go without Human Knowledge

やっと、日本語の要約を読んだのですがですが、これは自分的に「特異点」であるようにおもえてなりません。(レイ・カーツワイルのいう、いわゆる「汎用AIのシンギュラリティ」とは違います。あくまで一般的な特異点です。)

どんどん解説がでてきているので解説や関連記事にはリンク貼りませんが検索するとたくさんでてきます。

 アルファゼロすげ~

名前が似ているので紛らわしいですが、「アルファGO」ではなく、「アルファゼロ」がすごすぎです。Alpha GO ZeroとAlpha Zeroを別ものとしている記事と同じにしている記事がありさらにややこしいです。

本当のコアなところは公開されていない気がしていますが、公開情報だけからすると、

・アルファゼロは「最初から独学(ほぼ強化学習)だけで」特定分野ではあるが、高度な判断を必要とする処理において、人間の最高レベルを超えた。

と認識しています。この1点で自分には特異点です。

 

強化学習は勉強中ですが、従来のイメージからすると、

・学習の「最後のしあげ」に威力を発揮する

・もしくは「他の技術やロジックの補佐のもとに実用的な動作ができる」

・まったく何の情報もないところから強化学習は困難

(簡単なゲーム(ブロックくずし)など、結果がすぐわかってフィードバッグできるものであれば可能)

と思っていました。

 

囲碁のような初盤、中盤の評価がたいへん困難なゲームにおいて、強化学習で学習するには、それこそ以前から言われているような「天文学的」計算量が必要な認識でした。

「先代アルファGO」は強化学習のモンスターのイメージがありましたが、それでも「最初の学習」は過去の「膨大な囲碁のパターン学習」から開始している認識です。

それをアルファゼロは知識がないところ(それこそゼロ)からから、3日程度の計算で人類が1000年も2000年も研究してきた内容を、(きわめて狭い分野であるとはいえ、事実上)到達できるようになったという見方もできると思います。

やっぱりこれは「技術的特異点」なのか?

 特異点と感じるポイント(あくまで私見です)

いままで

・教師ありデータや、基本的な補助ロジックはある意味「それ自身が人類の英知である」とも言える。

機械学習は教師データや直接的な評価判定値をまねて(まねぶ・学ぶ)いるに過ぎない=パターンを与えられてそれを高次元な領域で「モデル化」して補完近似している。(そのため未知のデータの予測や適すると思われる状況応答ができる)

・深層学習はより高度な抽象化を内部で行っていると思われるが、そう学習させるために、整理された膨大なデータと膨大な計算資源が必要である。

・強化学習はある程度学習が進んだあとに、一層の最適化をおこなえる優れた手法である。しかしながら、高度な処理において、学習の初盤から使用するのは事実上困難である。

アルファゼロ

・自ら試行した内容を自ら学習パターン化し、体系化する(状況に応じた発見知識の獲得ができる)

・最初はどうやったらゲームに勝てるか全く知らない・基本戦略や転移学習の知識もないゼロ状態からの開始と思われる。

・特定分野に対応する、いままで習得されてきたノウハウを必要としない。(人類の英知に束縛されない)

・仕組み自体はむしろ過去のものよりシンプルである。その(外部からみると)単一なしくみで、最初から最後まで処理している。

・応用範囲が広いと思われる(碁だけではなく、ほとんどのテーブルゲームに応用がききそう。現実を端的にモデル化する技術と、その(目標達成の途中状態を含む)モデル状態評価技術がもっと向上すれば、政治や経済、経営にそのまま(意思決定支援として)使えそう。そして、創造的分野にも)

すこしばかりの疑問

・盤面の評価や、特有の枝刈り技法など「碁の」ノウハウを含むロジックとしてAlphaGO から「なんからの形で」持ってきているのであれば、純粋に「独学」とはいえないと思います。AlphaGOの盤面評価こそは「人類の英知」を変換(学習)したものといえると思うので。。。評価も純粋にゼロから学習しているのであればホンモノのような気がします。Googleの過去の発表には何度か一杯食わされた感があるので、発表を鵜呑みはしてません。(とはいえ、最近は実績を伴っているのでぐうの音もでません)

 

いそがしくてあまり情報をみれていませんでしたが、あたらめて確認すると(「without Human Knowledge」の部分に多少に疑問をもつとしても)「最上級にすごい」と思います。

人類を超えたのがすごいのではなく「最初(ゼロ)から最後(人類レベル以上)までいけていることろ」がすごいです。

個人的には汎用AI実現はあと100年以上かかると思っていますが、きわめて狭い分野の「専用」学習機能は、これからも少しづつ職人的知的領域を脅かしていく気がします。

 

この得体の知れない敗北感は何でしょう。Googleとは最初から勝負していないし、このような技術を待ち望んでいたはずの自分なのに(そして人工知能が職業を奪う記事をどれだけ読んでも全然響かない自分なのに)、意外です。

でも世の中の多くの人が、すでにこのような気持ちになっているのかもしれません。

 (囲碁の)セドルさんの(Alpha GO に敗北した)当時の気持ちは、自分としては推し量ることもできませんが、前よりは少しだけ分かる気がします。

我々はマイペース

それ(雲の向こう側)はそれとして、井戸底の我々は、今年も趣味の自己符号化器の実験を進めると思います。