国产午夜精品一区二区三区不卡_久在线精品视频_成人午夜网站_国内精品一区二区

首頁 > 活動(dòng)線報(bào) > 每日福利 > 計(jì)算機(jī)界諾貝爾獎(jiǎng)官宣:2024ACM圖靈獎(jiǎng)授予強(qiáng)化學(xué)習(xí)領(lǐng)域的奠基人

計(jì)算機(jī)界諾貝爾獎(jiǎng)官宣:2024ACM圖靈獎(jiǎng)授予強(qiáng)化學(xué)習(xí)領(lǐng)域的奠基人

發(fā)布時(shí)間:2025-03-09 00:49:05來源: 18836995956

剛剛,美國計(jì)算機(jī)學(xué)會(huì) ACM 今天宣布 Andrew Barto 和 Richard Sutton 獲得 2024 年 ACM A.M.圖靈獎(jiǎng),以表彰他們開發(fā)了強(qiáng)化學(xué)習(xí)的概念和算法基礎(chǔ)。就強(qiáng)化學(xué)習(xí)而言,從 20 世紀(jì) 80 年代開始,Barto 和 Sutton 在其一系列論文中介紹了主要理念,構(gòu)建了數(shù)學(xué)基礎(chǔ),并開發(fā)了的重要算法——這是創(chuàng)建智能系統(tǒng)的最重要方法之一。

ACM 主席 Yannis Ioannidis 表示:“Barto 和 Sutton 的工作展示了應(yīng)用多學(xué)科方法應(yīng)對(duì)我們領(lǐng)域長期挑戰(zhàn)的巨大潛力。從認(rèn)知科學(xué)、心理學(xué)到神經(jīng)科學(xué)的研究領(lǐng)域激發(fā)了強(qiáng)化學(xué)習(xí)的發(fā)展,這為 AI 的一些最重要的進(jìn)展奠定了基礎(chǔ),并讓我們更深入地了解到大腦的工作原理。Barto 和 Sutton 的工作并不是我們已經(jīng)跨越的墊腳石。強(qiáng)化學(xué)習(xí)仍在不斷發(fā)展,并為計(jì)算和許多其他學(xué)科的進(jìn)一步發(fā)展提供了巨大的潛力。這個(gè)領(lǐng)域最有聲望的獎(jiǎng)項(xiàng)對(duì)于他們而言,實(shí)至名歸。”谷歌高級(jí)副總裁 Jeff Dean 說道:“艾倫·圖靈在 1947 年的一次演講中提到‘我們想要的是一臺(tái)能夠從經(jīng)驗(yàn)中學(xué)習(xí)的機(jī)器’。由 Barto 和 Sutton 開創(chuàng)的強(qiáng)化學(xué)習(xí)直接回答了圖靈的問題。他們的工作是過去幾十年 AI 進(jìn)步的關(guān)鍵。他們開發(fā)的工具仍然是 AI 繁榮的核心支柱,并取得了重大進(jìn)展,吸引了大批年輕研究人員,并帶動(dòng)了數(shù)十億美元的投資。RL 的影響將延續(xù)到未來。谷歌很榮幸贊助 ACM A.M.圖靈獎(jiǎng),并向那些塑造了改善我們生活的技術(shù)的個(gè)人致敬。”

Andrew Barto 是馬薩諸塞大學(xué)阿姆赫斯特分校信息與計(jì)算機(jī)科學(xué)系的名譽(yù)教授,被譽(yù)為強(qiáng)化學(xué)習(xí)領(lǐng)域的先驅(qū)之一。他于 1970 年在密歇根大學(xué)獲得數(shù)學(xué)學(xué)士學(xué)位,隨后在 1975 年獲得計(jì)算機(jī)與通信科學(xué)的博士學(xué)位。Barto 在 1977 年加入馬薩諸塞大學(xué)阿姆赫斯特分校,開始了他的學(xué)術(shù)生涯,并在多個(gè)職位上任職,包括副教授、教授和系主任。Barto 在強(qiáng)化學(xué)習(xí)領(lǐng)域的貢獻(xiàn)不可小覷。他與他的博士學(xué)生 Richard Sutton 合作,從 20 世紀(jì) 80 年代開始,系統(tǒng)地介紹了強(qiáng)化學(xué)習(xí)的主要理念,構(gòu)建了數(shù)學(xué)基礎(chǔ),并開發(fā)了重要的算法。他們的工作為創(chuàng)建智能系統(tǒng)提供了重要的方法論支持。Barto 和 Sutton 共同撰寫了經(jīng)典教材《Reinforcement Learning: An Introduction》,該書至今仍是該領(lǐng)域的標(biāo)準(zhǔn)參考書目,被引次數(shù)已超過 75,000 次。Barto 因其在強(qiáng)化學(xué)習(xí)領(lǐng)域的開創(chuàng)性工作獲得了多項(xiàng)榮譽(yù),包括馬薩諸塞大學(xué)神經(jīng)科學(xué)終身成就獎(jiǎng)、IJCAI 卓越研究獎(jiǎng)和 IEEE 神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)先鋒獎(jiǎng)。他是電氣電子工程師協(xié)會(huì)(IEEE)的會(huì)員,也是美國科學(xué)促進(jìn)協(xié)會(huì)(AAAS)的會(huì)士。

圖丨Andrew Barto(來源:College of Information and Computer )

Richard Sutton 是阿爾伯塔大學(xué)計(jì)算機(jī)科學(xué)教授,同時(shí)也是 Keen Technologies 的研究科學(xué)家,并擔(dān)任阿爾伯塔機(jī)器智能研究所(Amii)的首席科學(xué)顧問。Sutton 在強(qiáng)化學(xué)習(xí)領(lǐng)域的影響力深遠(yuǎn),被認(rèn)為是現(xiàn)代強(qiáng)化學(xué)習(xí)的奠基人之一。他在 20 世紀(jì) 80 年代與 Andrew Barto 合作,共同推動(dòng)了強(qiáng)化學(xué)習(xí)的發(fā)展。Sutton 于 1978 年在斯坦福大學(xué)獲得心理學(xué)學(xué)士學(xué)位,隨后在馬薩諸塞大學(xué)阿姆赫斯特分校獲得計(jì)算機(jī)與信息科學(xué)的碩士和博士學(xué)位。他的研究興趣主要集中在決策者與環(huán)境相互作用時(shí)所面臨的學(xué)習(xí)問題,認(rèn)為這是智能的核心問題。Sutton 在強(qiáng)化學(xué)習(xí)領(lǐng)域的貢獻(xiàn)包括時(shí)序差分學(xué)習(xí)、策略梯度方法和 Dyna 架構(gòu)等。Sutton 的著作《Reinforcement Learning: An Introduction》與 Andrew Barto 共同撰寫,成為該領(lǐng)域的經(jīng)典教材,影響了無數(shù)研究人員和學(xué)生。他曾在 2017 年至 2023 年期間擔(dān)任 DeepMind 的杰出研究科學(xué)家,并在多個(gè)學(xué)術(shù)機(jī)構(gòu)任職,積累了豐富的研究和管理經(jīng)驗(yàn)。Sutton 因其在強(qiáng)化學(xué)習(xí)領(lǐng)域的卓越貢獻(xiàn)獲得了多項(xiàng)榮譽(yù),包括國際人工智能聯(lián)合會(huì)議(IJCAI)卓越研究獎(jiǎng)和加拿大人工智能協(xié)會(huì)終身成就獎(jiǎng)。他的工作不僅在學(xué)術(shù)界產(chǎn)生了深遠(yuǎn)影響,也為工業(yè)界的應(yīng)用提供了重要支持。

圖丨Richard Sutton(來源:University of Alberta)

強(qiáng)化學(xué)習(xí)作為機(jī)器學(xué)習(xí)領(lǐng)域的重要分支,有著豐富的發(fā)展歷程。其起源可追溯到 20 世紀(jì) 50 年代,當(dāng)時(shí)科學(xué)家們開始探索讓計(jì)算機(jī)像人類一樣通過試錯(cuò)來學(xué)習(xí)最優(yōu)策略的方法。早期的理論奠基工作為后續(xù)發(fā)展打下了基礎(chǔ),但受限于計(jì)算能力和數(shù)據(jù)量,強(qiáng)化學(xué)習(xí)在當(dāng)時(shí)并未得到廣泛應(yīng)用。到了 20 世紀(jì) 80 年代,Richard Sutton 和 Andrew Barto 等學(xué)者做出了開創(chuàng)性貢獻(xiàn)。他們系統(tǒng)地闡述了強(qiáng)化學(xué)習(xí)的基本概念和理論框架,提出了時(shí)間差分學(xué)習(xí)算法,如 Q-learning 。Q-learning 能夠在不依賴環(huán)境模型的情況下,通過不斷更新狀態(tài) - 動(dòng)作對(duì)的 Q 值來學(xué)習(xí)最優(yōu)策略,大大簡(jiǎn)化了學(xué)習(xí)過程,為強(qiáng)化學(xué)習(xí)的發(fā)展注入了強(qiáng)大動(dòng)力。進(jìn)入 21 世紀(jì),隨著計(jì)算機(jī)性能的大幅提升和大數(shù)據(jù)的爆發(fā)式增長,強(qiáng)化學(xué)習(xí)迎來了新的發(fā)展機(jī)遇。深度學(xué)習(xí)的興起更是為強(qiáng)化學(xué)習(xí)帶來了革命性變化,深度強(qiáng)化學(xué)習(xí)應(yīng)運(yùn)而生。深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征表示能力與強(qiáng)化學(xué)習(xí)的決策優(yōu)化能力相結(jié)合,在諸多領(lǐng)域展現(xiàn)出卓越性能。在游戲領(lǐng)域,AlphaGo 利用深度強(qiáng)化學(xué)習(xí)擊敗人類頂尖棋手,震驚世界;在機(jī)器人控制方面,強(qiáng)化學(xué)習(xí)使機(jī)器人能夠自主學(xué)習(xí)完成復(fù)雜任務(wù),如行走、抓取物體等;自動(dòng)駕駛領(lǐng)域,強(qiáng)化學(xué)習(xí)也在路徑規(guī)劃和決策制定中發(fā)揮著重要作用。

盡管 Barto 和 Sutton 的算法是在數(shù)十年前開發(fā)的,但通過與深度學(xué)習(xí)算法的結(jié)合,強(qiáng)化學(xué)習(xí)的實(shí)際應(yīng)用在過去十五年里取得了重大進(jìn)展。這表明他們的研究具有持久的影響力,并為未來的技術(shù)發(fā)展奠定了基礎(chǔ)。他們的成就激勵(lì)了成千上萬的研究人員投身于強(qiáng)化學(xué)習(xí)領(lǐng)域,推動(dòng)了該領(lǐng)域的持續(xù)發(fā)展和創(chuàng)新。

每日福利更多>>

榮耀亮出“底牌”,8000mAh+五星耐摔,512GB頂配版僅售2499元 摩托羅拉Razr 60 Ultra折疊手機(jī)宣傳物料曝光 頂點(diǎn)財(cái)經(jīng)29800薦股服務(wù)靠譜嗎?不可靠,老師曬盈利圖誘導(dǎo)股民繳費(fèi)騙局,薦股只為引你入圈! 紅米新品大揭秘!REDMI Turbo4 Pro 即將登場(chǎng),能否力壓群雄? 重構(gòu)AI大七座MPV標(biāo)桿2025款小鵬X9上市在即 別糾結(jié)了!2025上海車展最值得關(guān)注的4款MPV都在這里 預(yù)算相差八萬,領(lǐng)克 900、理想 L9、魏牌藍(lán)山家庭旗艦 SUV 選購指南 全新哈弗梟龍MAX:售價(jià)與宋PLUS DM-i重疊,1.5L的Hi4四驅(qū)系統(tǒng) 比亞迪秦L DM-i/ 宋L DM-i智駕版廠補(bǔ)至高1萬元 吉利全新博越L換代PK,這波升級(jí)太猛了 極氪001月銷不足3千,007GT能否逆襲? 2025上海車展公眾亮相 別克GL8陸尚將于4月22日開啟預(yù)售 熱度高卻銷量低!一汽-大眾捷達(dá)VA7為何命比紙薄? 本田燁品牌第二彈車型GT將于上海車展全球首發(fā) 2025款極狐阿爾法S5將在4月23日上海車展完成上市 問界M8上市,賽力斯“平臺(tái)革命”已拉開大幕 技術(shù)迭代與價(jià)格戰(zhàn)夾擊,北京EU5為何3月銷量暴跌? 方程豹鈦3購車分析:情緒價(jià)值比功能價(jià)值更多的車,首推智駕Max版 2025年下半年新能源汽車,要上市的8款SUV 小鵬X9的496次進(jìn)化論:把用戶痛點(diǎn)熬成技術(shù)甜點(diǎn) 五噸鋼卷驗(yàn)證的安全革命:東風(fēng)本田S7如何重構(gòu)新能源汽車防護(hù)標(biāo)準(zhǔn) 通用汽車動(dòng)力電池產(chǎn)能超越特斯拉 品牌2.0時(shí)代,極氪要“革自己的命” 硬核“野”好玩 212 送“六重大禮”4月?lián)屬彽褂?jì)時(shí) 免費(fèi)權(quán)益悄變付費(fèi)、夸大智駕、維修困難,車圈亂象幾時(shí)休? 華北首個(gè)迪空間•新能源汽車科普館于天津開館,點(diǎn)亮城市智慧之光 提供輕混/插混動(dòng)力 造型全面升級(jí) 新款沃爾沃S90官圖發(fā)布 配智駕、智艙、無人機(jī)、冰箱!海獅07DM-i智駕版預(yù)售18.98萬元起 對(duì)標(biāo)小米SU7 廣汽豐田鉑智7將于2025上海車展亮相 3月豪華品牌保值率榜單出爐 奔馳第三 特斯拉第六