剛剛,美國計(jì)算機(jī)學(xué)會(huì) ACM 今天宣布 Andrew Barto 和 Richard Sutton 獲得 2024 年 ACM A.M.圖靈獎(jiǎng),以表彰他們開發(fā)了強(qiáng)化學(xué)習(xí)的概念和算法基礎(chǔ)。就強(qiáng)化學(xué)習(xí)而言,從 20 世紀(jì) 80 年代開始,Barto 和 Sutton 在其一系列論文中介紹了主要理念,構(gòu)建了數(shù)學(xué)基礎(chǔ),并開發(fā)了的重要算法——這是創(chuàng)建智能系統(tǒng)的最重要方法之一。
ACM 主席 Yannis Ioannidis 表示:“Barto 和 Sutton 的工作展示了應(yīng)用多學(xué)科方法應(yīng)對(duì)我們領(lǐng)域長期挑戰(zhàn)的巨大潛力。從認(rèn)知科學(xué)、心理學(xué)到神經(jīng)科學(xué)的研究領(lǐng)域激發(fā)了強(qiáng)化學(xué)習(xí)的發(fā)展,這為 AI 的一些最重要的進(jìn)展奠定了基礎(chǔ),并讓我們更深入地了解到大腦的工作原理。Barto 和 Sutton 的工作并不是我們已經(jīng)跨越的墊腳石。強(qiáng)化學(xué)習(xí)仍在不斷發(fā)展,并為計(jì)算和許多其他學(xué)科的進(jìn)一步發(fā)展提供了巨大的潛力。這個(gè)領(lǐng)域最有聲望的獎(jiǎng)項(xiàng)對(duì)于他們而言,實(shí)至名歸。”谷歌高級(jí)副總裁 Jeff Dean 說道:“艾倫·圖靈在 1947 年的一次演講中提到‘我們想要的是一臺(tái)能夠從經(jīng)驗(yàn)中學(xué)習(xí)的機(jī)器’。由 Barto 和 Sutton 開創(chuàng)的強(qiáng)化學(xué)習(xí)直接回答了圖靈的問題。他們的工作是過去幾十年 AI 進(jìn)步的關(guān)鍵。他們開發(fā)的工具仍然是 AI 繁榮的核心支柱,并取得了重大進(jìn)展,吸引了大批年輕研究人員,并帶動(dòng)了數(shù)十億美元的投資。RL 的影響將延續(xù)到未來。谷歌很榮幸贊助 ACM A.M.圖靈獎(jiǎng),并向那些塑造了改善我們生活的技術(shù)的個(gè)人致敬。”
Andrew Barto 是馬薩諸塞大學(xué)阿姆赫斯特分校信息與計(jì)算機(jī)科學(xué)系的名譽(yù)教授,被譽(yù)為強(qiáng)化學(xué)習(xí)領(lǐng)域的先驅(qū)之一。他于 1970 年在密歇根大學(xué)獲得數(shù)學(xué)學(xué)士學(xué)位,隨后在 1975 年獲得計(jì)算機(jī)與通信科學(xué)的博士學(xué)位。Barto 在 1977 年加入馬薩諸塞大學(xué)阿姆赫斯特分校,開始了他的學(xué)術(shù)生涯,并在多個(gè)職位上任職,包括副教授、教授和系主任。Barto 在強(qiáng)化學(xué)習(xí)領(lǐng)域的貢獻(xiàn)不可小覷。他與他的博士學(xué)生 Richard Sutton 合作,從 20 世紀(jì) 80 年代開始,系統(tǒng)地介紹了強(qiáng)化學(xué)習(xí)的主要理念,構(gòu)建了數(shù)學(xué)基礎(chǔ),并開發(fā)了重要的算法。他們的工作為創(chuàng)建智能系統(tǒng)提供了重要的方法論支持。Barto 和 Sutton 共同撰寫了經(jīng)典教材《Reinforcement Learning: An Introduction》,該書至今仍是該領(lǐng)域的標(biāo)準(zhǔn)參考書目,被引次數(shù)已超過 75,000 次。Barto 因其在強(qiáng)化學(xué)習(xí)領(lǐng)域的開創(chuàng)性工作獲得了多項(xiàng)榮譽(yù),包括馬薩諸塞大學(xué)神經(jīng)科學(xué)終身成就獎(jiǎng)、IJCAI 卓越研究獎(jiǎng)和 IEEE 神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)先鋒獎(jiǎng)。他是電氣電子工程師協(xié)會(huì)(IEEE)的會(huì)員,也是美國科學(xué)促進(jìn)協(xié)會(huì)(AAAS)的會(huì)士。
圖丨Andrew Barto(來源:College of Information and Computer )
Richard Sutton 是阿爾伯塔大學(xué)計(jì)算機(jī)科學(xué)教授,同時(shí)也是 Keen Technologies 的研究科學(xué)家,并擔(dān)任阿爾伯塔機(jī)器智能研究所(Amii)的首席科學(xué)顧問。Sutton 在強(qiáng)化學(xué)習(xí)領(lǐng)域的影響力深遠(yuǎn),被認(rèn)為是現(xiàn)代強(qiáng)化學(xué)習(xí)的奠基人之一。他在 20 世紀(jì) 80 年代與 Andrew Barto 合作,共同推動(dòng)了強(qiáng)化學(xué)習(xí)的發(fā)展。Sutton 于 1978 年在斯坦福大學(xué)獲得心理學(xué)學(xué)士學(xué)位,隨后在馬薩諸塞大學(xué)阿姆赫斯特分校獲得計(jì)算機(jī)與信息科學(xué)的碩士和博士學(xué)位。他的研究興趣主要集中在決策者與環(huán)境相互作用時(shí)所面臨的學(xué)習(xí)問題,認(rèn)為這是智能的核心問題。Sutton 在強(qiáng)化學(xué)習(xí)領(lǐng)域的貢獻(xiàn)包括時(shí)序差分學(xué)習(xí)、策略梯度方法和 Dyna 架構(gòu)等。Sutton 的著作《Reinforcement Learning: An Introduction》與 Andrew Barto 共同撰寫,成為該領(lǐng)域的經(jīng)典教材,影響了無數(shù)研究人員和學(xué)生。他曾在 2017 年至 2023 年期間擔(dān)任 DeepMind 的杰出研究科學(xué)家,并在多個(gè)學(xué)術(shù)機(jī)構(gòu)任職,積累了豐富的研究和管理經(jīng)驗(yàn)。Sutton 因其在強(qiáng)化學(xué)習(xí)領(lǐng)域的卓越貢獻(xiàn)獲得了多項(xiàng)榮譽(yù),包括國際人工智能聯(lián)合會(huì)議(IJCAI)卓越研究獎(jiǎng)和加拿大人工智能協(xié)會(huì)終身成就獎(jiǎng)。他的工作不僅在學(xué)術(shù)界產(chǎn)生了深遠(yuǎn)影響,也為工業(yè)界的應(yīng)用提供了重要支持。
圖丨Richard Sutton(來源:University of Alberta)
強(qiáng)化學(xué)習(xí)作為機(jī)器學(xué)習(xí)領(lǐng)域的重要分支,有著豐富的發(fā)展歷程。其起源可追溯到 20 世紀(jì) 50 年代,當(dāng)時(shí)科學(xué)家們開始探索讓計(jì)算機(jī)像人類一樣通過試錯(cuò)來學(xué)習(xí)最優(yōu)策略的方法。早期的理論奠基工作為后續(xù)發(fā)展打下了基礎(chǔ),但受限于計(jì)算能力和數(shù)據(jù)量,強(qiáng)化學(xué)習(xí)在當(dāng)時(shí)并未得到廣泛應(yīng)用。到了 20 世紀(jì) 80 年代,Richard Sutton 和 Andrew Barto 等學(xué)者做出了開創(chuàng)性貢獻(xiàn)。他們系統(tǒng)地闡述了強(qiáng)化學(xué)習(xí)的基本概念和理論框架,提出了時(shí)間差分學(xué)習(xí)算法,如 Q-learning 。Q-learning 能夠在不依賴環(huán)境模型的情況下,通過不斷更新狀態(tài) - 動(dòng)作對(duì)的 Q 值來學(xué)習(xí)最優(yōu)策略,大大簡(jiǎn)化了學(xué)習(xí)過程,為強(qiáng)化學(xué)習(xí)的發(fā)展注入了強(qiáng)大動(dòng)力。進(jìn)入 21 世紀(jì),隨著計(jì)算機(jī)性能的大幅提升和大數(shù)據(jù)的爆發(fā)式增長,強(qiáng)化學(xué)習(xí)迎來了新的發(fā)展機(jī)遇。深度學(xué)習(xí)的興起更是為強(qiáng)化學(xué)習(xí)帶來了革命性變化,深度強(qiáng)化學(xué)習(xí)應(yīng)運(yùn)而生。深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征表示能力與強(qiáng)化學(xué)習(xí)的決策優(yōu)化能力相結(jié)合,在諸多領(lǐng)域展現(xiàn)出卓越性能。在游戲領(lǐng)域,AlphaGo 利用深度強(qiáng)化學(xué)習(xí)擊敗人類頂尖棋手,震驚世界;在機(jī)器人控制方面,強(qiáng)化學(xué)習(xí)使機(jī)器人能夠自主學(xué)習(xí)完成復(fù)雜任務(wù),如行走、抓取物體等;自動(dòng)駕駛領(lǐng)域,強(qiáng)化學(xué)習(xí)也在路徑規(guī)劃和決策制定中發(fā)揮著重要作用。
盡管 Barto 和 Sutton 的算法是在數(shù)十年前開發(fā)的,但通過與深度學(xué)習(xí)算法的結(jié)合,強(qiáng)化學(xué)習(xí)的實(shí)際應(yīng)用在過去十五年里取得了重大進(jìn)展。這表明他們的研究具有持久的影響力,并為未來的技術(shù)發(fā)展奠定了基礎(chǔ)。他們的成就激勵(lì)了成千上萬的研究人員投身于強(qiáng)化學(xué)習(xí)領(lǐng)域,推動(dòng)了該領(lǐng)域的持續(xù)發(fā)展和創(chuàng)新。