Science Newsより

最新のAlphaGoは人間による学習用データ入力なしにゲームを習得

The newest AlphaGo mastered the game with no human input - October 18, 2017

Credit: DeepMind AlphaGoが更なる進化を遂げた。

AlphaGoの最新バージョン「AlphaGo Zero」と呼ばれるコンピュータプログラムが人間による学習用データ入力なしに囲碁を習得した。

「AlphaGo Zero」の前身となったバージョンは人間の棋士の世界チャンピオンを最初に破った人工知能を持つコンピュータプログラムとなったが、これは何百万もの過去のプロ棋士の対局データを学習しその上でAlphaGo同士による自己対局を繰り返すことで進化を遂げてきた。

だが「AlphaGo Zero」はこの「お手本」となるデータを必要とせず、囲碁の基本ルールだけを教えた状態から人工知能自らが試行錯誤を繰り返し、その結果わずか数日後には旧AlphaGoとの対局で100戦100勝した。

この結果を受けてこのAlphaGoを作ったグーグルのグループ会社「DeepMind」の研究チームらは10月19日付のイギリスの科学雑誌のNatureで「AlphaGo Zero」を発表した。

「この結果はただただ驚異的です。これはまさに革命的な変化が起きたと言っていいでしょう。」とカナダのエドモントンにあるアルバータ大学のコンピュータ科学者、ジョナサン・シェファー(Jonathan Schaeffer)氏は語る。

またミシガン大学のコンピューター科学者であるサテリンダー・シン(Satinder Singh)氏は、 人工知能が学習するには最初の段階で人間の専門家による知識が必要とされそれのデータ化や入手が難しいといった問題があったが、人間による入力を必要としないこのAlphaGo ZeroのようなAIプログラムはそれらの問題を解決できるかもしれないと述べている。

スポンサードリンク

従来のAlphaGoはまず入力された膨大な数の棋士たちの対局データを基に訓練され囲碁の打ち方を学習、後にそれぞれのターンで過去の経験を活用して残りのゲームがどのように進むかを予測し、各シナリオでどちらのプレイヤーが勝つかを判断しそれに従って行動を選択してきた。

だがAlphaGo Zeroはこの最初の"入力されたデータから学ぶ"という手順を飛ばして自己対局を繰り返すことのみで学習するという。

「AlphaGo Zeroの最初から起こりうる未来を予測して評価する能力はより速く学ぶ事を可能にしただけでなく、最終的により良いプレイヤーにした」とNatureに発表した論文の中では語られている。

その結果AlphaGo Zeroは3日間で490万回にも及ぶ自己対局を行い従来のAlphaGoを敗北させた。従来のAlphaGoはそのレベルになるまで数ヶ月を必要としていたという。

さらにAlphaGo Zeroは人間が数千年におよぶ囲碁の歴史を通して編み出してきた「定石」と呼ばれる最善の手の多くを発見しただけでなく、全く新しい「定石」を生み出したとしている。

「AlphaGo Zeroにとって、人間の棋士の世界チャンピオンは初心者です」 とジョナサン・シェファー氏は述べた。だがそれほどの腕前を持っているにもかかわらずAlphaGo Zeroはまだ囲碁以外は何もできないイディオサバン(特殊な才能を持つ知的障害者)に過ぎないという。

「これらのAIプログラムがエンジニアリングや医学に大きな貢献をもたらすためには自らの力で多種多様なタスクを学ぶ事ができる、より汎用的な問題解決者にならなければなりません。」

海外の反応

reddit.comのコメント欄より: ソース , ソース


larkstready 話は聞かせてもらった。人類は滅亡する。

FSYigg 私が見たすべての映画によればだ、彼らはもうすぐインターネットに接続され全ての核兵器を手に入れる。そして人類は滅亡する。

nonsensicalization ついに人間からの学習は、その進歩を妨げることになったと。さよなら人類。

tmiano それまで膨大な量の棋士たちの対局データが必要とされていたが、このAlphaGo Zeroはそれを必要としなくなった。人間による入力が不要になり合理化され、簡素化され、はるかに効率的に進化したわけだ。

yijuwarp AIシステムの強化にはいわゆる「ビッグデータ」による学習作業が必要だったがその初期入力がほとんど不要になるってのは革命的だわな。

chibicody6k これは素晴らしい。おそらくだけどこれまでAlphaGoが成し遂げてきた功績のすべてよりも遥かに凄いんじゃなかろうか。基本的なルールのみ与えられそこから人間が編み出してきた定石を再発見、さらには新しい物まで生み出し短時間で人間の棋士やAlphaGoを凌駕し世界最強の囲碁プレイヤーになったとか。

jcarlson0810k しかもプログラムの改良により計算に用いるプロセッサの数も少なくて済むらしい。李世ドル氏を破ったAlphaGoは48個のTPUが必要だったのに対し、今回のはたったの4個で稼動するとか。(※TPU:ディープラーニング専用プロセッサ。GPUの10倍の性能があるとのこと)

Okix 3日で490万回の対局ってことは1秒に19対局...

MGreymanN 囲碁の対局は平均約200回石を動かす。だから1秒間に3800手か。

gnovos 人間がそれをやろうとしたら火が付くな。

cabalforbreakfast 囲碁の名誉名人である趙治勲はインタビューで仮に全知全能の神と対局する場合、ハンデとしてあらかじめ碁盤に石を置く「置き碁」がいくつ必要かと聞かれ4つと答えた。

そして現在、2016年に韓国の囲碁棋士である李世ドルと対局し勝ったAlphaGoは最新のAlphaGo Zeroに対し4つ以上の置き碁というハンデをもらっている。それはもう人間が想像もできない世界だ。

-regions- 「北朝鮮よりも人工知能の方が危険」とイーロン・マスクが言ったり「人工知能の開発は人類の終わりを意味するかもしれない」と英理論物理学者のスティーブン・ホーキング博士が言ったりしてきたけど、今回のAlphaGo Zeroを見ると正しいアドバイスなのかもと思っちゃうな。

aquarain 証券会社がこれを導入して数日自己学習させてしまえば数日で世界を所有できるようになってそう。

Jaxkr それはない。囲碁は外部要因が影響しない閉鎖されたシステムだが株式市場は閉鎖されていない。確かにAIは統計に基づいてパターンを認識し入札することができるが製品発表や企業の長期計画に基づいて投資することはできない。"まだできない"といったほうが正確だけど。

HP844182 でも実際すでにキーワードからネットのニュース記事をスキャンしてそれが肯定的か否定的かを解釈し、それに応じて取引するボットが存在してるぞ。

Forlarren 今の株式市場はコンピューターによる1秒に満たないミリ秒単位での自動的な株のやり取りを行う高頻度取引によって支配されているようなもんだしな。そこに高度な人工知能が導入されたらどうなるか...

GetInThereLewis10k deepmind.comの記事にAlphaGo Zeroがどのように進化して行ったかがわかる図が載っていたがとても興味深い。


3時間後: AlphaGo Zeroは人間の初心者のようにプレイし、できるだけ多くの石を貪欲に捕捉することに焦点を当てた長期的な戦略を推し進める。



19時間後: AlphaGo Zeroは死活や勢力と群の強弱、陣地などの進んだ囲碁戦略の基礎を学び始める。



70時間後: AlphaGo Zeroは超達人レベルに達する。盤面全体で複数の局面を同時に統制する

crusoe AIは飛躍的に進歩している。6ヶ月前に最先端だったものが今日は時代遅れになる。人工知能が自ら試行錯誤を繰り返しよりよい答えにたどり着く「強化学習」は今最もホットなテクノロジーなのは間違いない。

スポンサードリンク