MBA評論：最強的學習技能在人類的腦袋里

來源：中國MBA網
時間：2017-11-28 18:27:37
點擊數(shù)：次

2025MBA報考測評申請中......

說明：您只需填寫姓名和電話即可免費預約！也可以通過撥打熱線免費預約
我們的工作人員會在最短時間內給予您活動安排回復。

導讀：沒有人會否認，AlphaGo在過去一年炒熱全球對人工智能的關注。

沒有人會否認，AlphaGo在過去一年炒熱全球對人工智能的關注。

2016年3月，谷歌Deepmind旗下的圍棋程序AlphaGo，以4比1的成績戰(zhàn)勝韓國職業(yè)棋手李世石。一年后，拿掉所有人類知識、完全靠自學的AlphaGo Zero，在今年10月又以100比0的戰(zhàn)績碾壓“AI前輩”AlphaGo。從擊敗人類、到自學成材，AlphaGo的進展超乎預期，研發(fā)團隊也自然成為關注焦點。這當中，被稱為AlphaGo的“人肉手臂”，替AlphaGo向棋圣聶衛(wèi)平說“謝謝聶老師”的黃士杰(Aja Huang)，就是AlphaGo發(fā)展的重要推手。

上周五(11月10日)在臺灣中研院舉辦的“2017年人工智慧年會”上，黃士杰首次把AlphaGo的研發(fā)過程公開說清楚，除了透露新一代AlphaGo Zero的能力還沒達到極限，他更多的是去分享身為一名科學家，旁觀機器的進步，以及一個科學團隊對基礎研究的使命和專注。

以下是編輯后的演講摘錄：

AlphaGo的研發(fā)過程，有四個時刻對我影響很大。

第一，是我們在韓國贏了李世石。當我們開始做AlphaGo時，沒想到它會變得那么強。在韓國贏了李世石后，DeepMind首席執(zhí)行官Demis Hassabis立刻發(fā)了一個推特，說“我們登上月球”(We landed it on the moon.)。我明白Demis那天的感覺，這是我們團隊的一小步，但卻是人類的一大步。

第二個時刻，是我在網絡上操作AlphaGo升級版“Master”，下了60盤棋。我從小喜歡下棋，在臺灣是業(yè)余六段。Master在網絡上對弈的對象，都是我從小崇拜的人。雖然不是我真正在下棋，但卻感到非常榮幸。

第三個時刻，是今年在烏鎮(zhèn)進行的人機大戰(zhàn)，由我操作AlphaGo和世界冠軍柯潔九段下棋?？聺嵾€不滿20歲，非常年輕，當天比賽氛圍和李世石對弈時很不同。我記得在韓國比賽，能感受到李世石承受到很大的壓力，感覺他是在為人類而戰(zhàn)。我當時坐在他對面，也盡量保持謹慎的態(tài)度，不喝水、不去上洗手間。但到了第二次和柯潔對弈，比較像是人機合作的氣氛，柯潔還走過來說：“黃博士，很榮幸跟AlphaGo下棋”，坦白說我有點驚訝。這也讓我們知道，如果Master是無敵的，那機器存在價值到底在哪里?應該是要幫助棋手擴張思路、擴展圍棋理論。

第四次對我意義重大的時刻，是AlphaGo Zero的出現(xiàn)。什么是AlphaGo Zero?我們拿掉所有人類對圍棋的知識，只喂AlphaGo Zero圍棋規(guī)則，讓它自己學習下棋。我回想起讀博士班的熬夜日子，就是不斷寫代碼、找bug，每天做測試，讓程序進步。但AlphaGo Zero把我過去的所有東西全部取代，它完全不需要我的幫助。有同事問我，Aja，AlphaGo Zero把你這十幾年來對圍棋計算機的研究，一點一點的拿掉，甚至還超越你，有什么感覺?我的確心情復雜，但后來跟同事說，這會是一個趨勢，如果我阻礙了AlphaGo，我確實應該被拿掉(笑)。AlphaGo有99%的知識是我做的，AlphaGo能走到這一步，我已經很滿足，找到了收尾。

AlphaGo是怎么開始的?

回到一開始，AlphaGo到底是怎么開始的?起點是有三組人馬的聚集：Deepmind首席執(zhí)行官Demis Hassabis與AlphaGo項目領導David Silver、我、還有兩位谷歌大腦(Google brain)的同事Chris Maddison和Ilya Sutskever。

Demis和David原本是劍橋大學的同學，友情深厚。對西方人來說，當1997年IBM超級電腦“深藍”贏了西洋棋棋王卡斯巴羅夫之后，就只剩下流傳幾千年的中國圍棋，是人工智能發(fā)展的極大挑戰(zhàn)。一開始，很多研究人員想把研究西洋棋的技術移到圍棋上，但都失敗了。在2006年蒙特卡洛樹搜索出來后，研究才提升一階，讓機器棋手的水平能達到業(yè)余三段，但離職業(yè)棋士一段還有距離。Demis和David心中開始藏有一個夢，希望有一天要能做出一個很強的圍棋程式。

但有夢的不只有他們，故事的另一條線還有我。

在就讀臺灣師范大學資訊工程博士班時，我每天埋頭解bug、寫代碼，就是希望做一個很強的圍棋程序。2010年，我研發(fā)出的圍棋計算機程序Erica(事實上是用我妻子的名字來命名)，在計算機奧林匹亞獲得 19 路圍棋的冠軍。雖然Erica只是單機版，但它打敗了用了6臺PC的日本程序Zen跟其他參賽者，就像小蝦米對抗大鯨魚。當年還在英國當教授的David，在比賽后寫信問我有沒有興趣加入Deepmind，隔年我也正式加入團隊，成為第40號員工。

我還記得當年面試，老板問我，能做出Erica有什么感覺?我回答，滿有成就的。Demis點頭，他明白我的感覺。

2014年，Google收購Deepmind，AlphaGo項目也正式浮現(xiàn)。Demis起初還在教書、還不是全職員工，就常三不五時走過來跟我討論圍棋項目的想法。真的要開始時，我們其實都已經有些準備。

既然決定要做圍棋項目，當時我和Demis有一個共識，就是絕對不要復制Erica。Erica其實有它的極限，最勉強的就是達到業(yè)余三段，繼續(xù)復制的意義不大。我們想做不一樣的事，希望能運用到深度學習的原理。過了幾個月，團隊又增加了兩個人，包括深度學習之父以及帶動深度學習革命的研究者。

我們怎么判斷深度學習可能應用到圍棋?如果人類可以一看棋盤就知道下哪一步會是好棋，那么神經網絡也可能辦得到這種"直覺"。但如果人類得想五分鐘才能給出答案，神經網絡可能辦不到。一開始，我們訓練AlphaGo從人類的棋譜去學習人類的直覺。我還記得第一次測試神經網絡，沒想到能表現(xiàn)得那么好，百分之百對戰(zhàn)都不會輸，是一種碾壓式的勝利。

AlphaGo第二個突破的是價值網絡。我記得當David跟我說他有這樣一個點子時，我還質疑，這會成嗎?當我們把策略網絡(Policy Network)做出來后，最強的程式可以達到70%到80%的勝率，算得上是世界最強的。但老板的目標不只于此，我們又繼續(xù)找人、繼續(xù)擴充團隊。

這過程其實很辛苦，嘗試很多，譬如網絡要多深、要用什么架構?數(shù)據(jù)庫有沒有問題?最終檢驗的，還是看AlphaGo有沒有變強。過了一個月之后，我們找到了問題并且解決掉，我仍然記得，舊版AlphaGo配上價值網絡產生的新版AlphaGo，第一次的實驗結果是達到95%的勝率，棋力非常強?？梢赃@么說，AlphaGo的成功就是深度學習與強化學習的勝利，因為兩者結合在一起，建構判斷形式的價值網絡(Value Network)，后來也成為AlphaGo Zero的主要理論。

當價值網絡出來后，Demis希望我們能與歐洲職業(yè)一段棋手進行比賽。當下，我除了要做價值網絡，還要研究平行網絡搜索技術，Demis走過來說要比賽，我只想著：真的那么有信心嗎?

后來我們與歐洲圍棋冠軍樊麾進行比賽，最終以5比0獲勝，這結果其實也很不可思議。我記得樊麾輸了第二盤棋后，想出去走走，會說中文的我，原本想去陪他，他揮揮手，“不用，我自己出去透透氣。”

難能可貴的是，樊麾是第一個被AI打敗的職業(yè)棋士，但他的態(tài)度非常正面。樊麾在第五盤棋雖然認輸了，但他對AI并沒有感到害怕，后來甚至也加入了團隊，幫忙測試AlphaGo。

當時要把AlphaGo研究投稿到科學期刊《自然》(Nature)也是另一段有趣的故事。我們那時剛弄出價值網絡、剛打敗樊麾，正準備要挑戰(zhàn)韓國職業(yè)棋手李世石九段，Demis為什么又要我們另外花時間去寫論文，而不是準備比賽?為什么現(xiàn)在就要我們把研究秘密全部公開?

Demis給了我一個很有意思的答案。他認為，我們是在做研究，科學的精神就是要互相分享，我們要推動整個領域的進步。也因為要寫論文投稿，和《自然》編輯也事先談好，在出版之前，我們不能和任何人說AlphaGo打敗了樊麾。那幾個月，所有人都憋著不講，當論文刊登之后，才正式向李世石九段提出挑戰(zhàn)。

至于后來AlphaGo和李世石的比賽，大家也都知道了。

這邊要特別提到的是，TPU(Tensor Processing Unit，谷歌的高性能處理器)在研究過程中對我們有極大的幫助。自從Deepmind加入Google后，我認為Google給我們最大的幫助，就是提供了硬件設備。我還記得當時有一個GPU(圖形處理器)版本，代碼完全一樣，但改用TPU之后，勝率變得強太多。

而AlphaGo的故事也還沒結束。

就在我們打敗李世石后，很多人認為AlphaGo項目是不是不動了。如果大家還記得，和李世石下棋時，第四盤棋我們輸?shù)煤軕K。當時我坐在李世石對面，要幫AlphaGo下那幾步棋，明顯知道那些下法是初學者的錯誤，要擺棋很痛苦，甚至會覺得我來下都比AlphaGo來得好。雖然我們最終贏了，但這一盤棋確實有很大的弱點，如果五盤棋內，有20%的錯誤率，這樣的AI系統(tǒng)，你敢用嗎?所以我們決定，一定要把這個弱點解決掉，不只是解決第四盤的問題，是要把AlphaGo項目全面解決。

后來過了三個月，我們就把弱點解掉了。怎么做到的?還是采用深度學習和強化學習的方法，并不是用人類知識的方法。第一，我們加強AlphaGo的學習能力，所謂學習能力就是把網絡程度加深，從第一篇論文的13層加深到40層，而且是改成ResNet。第二個改變是，把策略網絡和神經網絡結合，讓AlphaGo的直覺和判斷一起訓練，使兩者更有一致性。這個解決后的版本，就是Master。

我那段時間一直說服團隊，要帶Master上線下棋測試棋力，不要等到Master完全無敵后才下棋。2016年年底，我回到臺灣，當時特別低調，在線上中文圍棋網站奕城和野狐申請了帳號，偷偷當職業(yè)棋士下棋。12月29號開始，我關在自己的房間里測試Master，一盤棋下一小時，一早下三盤棋，然后吃飯，下午繼續(xù)，晚上吃完飯再繼續(xù)，非常累，到晚上眼睛都張不開。

我還記得一開始在奕城下棋，沒人要跟經驗值為零的我對弈，直到第二天邀約才陸續(xù)上門，到了第三天，還愈來愈多人觀看。那時壓力很大，很怕自己點擊錯誤或是網絡連線斷掉，AlphaGo不能因為我而輸?shù)舭ⅰ?/span>

我到現(xiàn)在還是很感謝那些曾經和Master對弈的棋手。原本想低調比賽，但后來沒辦法，確實是每一盤都贏、每一盤贏的都是巨大的優(yōu)勢。這當中，柯潔算是唯一一位可以跟AlphaGo比賽堅持最久的。

AlphaGo Zero只用三天走過人類的千年歷程

在Master之后，我們研究分出兩條線，一條是讓Master出去比賽，由我來測試，另一條線，則是把所有人類知識拿掉，從零開始學習，看AlphaGo Zero可以達到什么程度。

我們在初期預設AlphaGo Zero絕對不可能贏Master。圍棋被研究了幾千年，一個程序只知道棋盤和規(guī)則，一切從零開始，怎么可能會超越幾千年的圍棋歷史?但我們錯了，40天的訓練后，AlphaGo Zero超越了Master，我們非常意外，深度學習和強化學習的威力太大了。

AlphaGo Zero是從亂下開始，找出圍棋的下法，它只用了三天，走過了人類研究圍棋的千年歷程。這也是有趣的地方，人類幾千年的累積，跟科學研究是一致的。

AlphaGo Zero前后訓練了 40 天，但第 40 天還沒有到達其極限，因為我們機器要做其他事情就先停下了。今年四月，我們也發(fā)表了AlphaGo Zero的論文，這篇論文的目的，沒有想要跟人類知識比較、或是討論人類知識有沒有用等問題，而是想證明機器不需要人類知識也可以擁有很強的能力。

我認為，未來的人工智能，是要與人類合作，而非跟人類對抗。強人工智能距離我們仍是遙遠，而現(xiàn)在最強的學習技能，其實仍在我們的腦袋里。

責任編輯：Liuyu

社科賽斯官方微信

社科賽斯官方微博

相關熱詞搜索： MBA MBA資訊 MBA動態(tài)資訊

【版權與免責聲明】如發(fā)現(xiàn)內容存在版權問題，煩請?zhí)峁┫嚓P信息發(fā)郵件至service@mbaschool.com.cn，我們將及時溝通與處理。本站內容除非來源注明社科賽斯，否則均為網絡轉載，涉及言論、版權與本站無關。

2025考生福利

2025MBA報考測評申請中，填寫相關信息可獲贈專業(yè)老師進行考研指導。

熱點推薦

頭條資訊更多>>

習題 ? 工具

MBA起源報考流程 MBA課程聯(lián)考題目 MBA調劑 MBA復試 MBA備考 MBA大綱 MBA分數(shù)線

考研公開課更多>>

提前面試如何聽課

1提前面試如何聽課