91网站免费观看,午夜久久精品,日韩在线视频免费

剛剛，美國計(jì)算機(jī)學(xué)會(huì) ACM 今天宣布 Andrew Barto 和 Richard Sutton 獲得 2024 年 ACM A.M.圖靈獎(jiǎng)，以表彰他們開發(fā)了強(qiáng)化學(xué)習(xí)的概念和算法基礎(chǔ)。就強(qiáng)化學(xué)習(xí)而言，從 20 世紀(jì) 80 年代開始，Barto 和 Sutton 在其一系列論文中介紹了主要理念，構(gòu)建了數(shù)學(xué)基礎(chǔ)，并開發(fā)了的重要算法——這是創(chuàng)建智能系統(tǒng)的最重要方法之一。

ACM 主席 Yannis Ioannidis 表示：“Barto 和 Sutton 的工作展示了應(yīng)用多學(xué)科方法應(yīng)對(duì)我們領(lǐng)域長期挑戰(zhàn)的巨大潛力。從認(rèn)知科學(xué)、心理學(xué)到神經(jīng)科學(xué)的研究領(lǐng)域激發(fā)了強(qiáng)化學(xué)習(xí)的發(fā)展，這為 AI 的一些最重要的進(jìn)展奠定了基礎(chǔ)，并讓我們更深入地了解到大腦的工作原理。Barto 和 Sutton 的工作并不是我們已經(jīng)跨越的墊腳石。強(qiáng)化學(xué)習(xí)仍在不斷發(fā)展，并為計(jì)算和許多其他學(xué)科的進(jìn)一步發(fā)展提供了巨大的潛力。這個(gè)領(lǐng)域最有聲望的獎(jiǎng)項(xiàng)對(duì)于他們而言，實(shí)至名歸。”谷歌高級(jí)副總裁 Jeff Dean 說道：“艾倫·圖靈在 1947 年的一次演講中提到‘我們想要的是一臺(tái)能夠從經(jīng)驗(yàn)中學(xué)習(xí)的機(jī)器’。由 Barto 和 Sutton 開創(chuàng)的強(qiáng)化學(xué)習(xí)直接回答了圖靈的問題。他們的工作是過去幾十年 AI 進(jìn)步的關(guān)鍵。他們開發(fā)的工具仍然是 AI 繁榮的核心支柱，并取得了重大進(jìn)展，吸引了大批年輕研究人員，并帶動(dòng)了數(shù)十億美元的投資。RL 的影響將延續(xù)到未來。谷歌很榮幸贊助 ACM A.M.圖靈獎(jiǎng)，并向那些塑造了改善我們生活的技術(shù)的個(gè)人致敬。”

Andrew Barto 是馬薩諸塞大學(xué)阿姆赫斯特分校信息與計(jì)算機(jī)科學(xué)系的名譽(yù)教授，被譽(yù)為強(qiáng)化學(xué)習(xí)領(lǐng)域的先驅(qū)之一。他于 1970 年在密歇根大學(xué)獲得數(shù)學(xué)學(xué)士學(xué)位，隨后在 1975 年獲得計(jì)算機(jī)與通信科學(xué)的博士學(xué)位。Barto 在 1977 年加入馬薩諸塞大學(xué)阿姆赫斯特分校，開始了他的學(xué)術(shù)生涯，并在多個(gè)職位上任職，包括副教授、教授和系主任。Barto 在強(qiáng)化學(xué)習(xí)領(lǐng)域的貢獻(xiàn)不可小覷。他與他的博士學(xué)生 Richard Sutton 合作，從 20 世紀(jì) 80 年代開始，系統(tǒng)地介紹了強(qiáng)化學(xué)習(xí)的主要理念，構(gòu)建了數(shù)學(xué)基礎(chǔ)，并開發(fā)了重要的算法。他們的工作為創(chuàng)建智能系統(tǒng)提供了重要的方法論支持。Barto 和 Sutton 共同撰寫了經(jīng)典教材《Reinforcement Learning: An Introduction》，該書至今仍是該領(lǐng)域的標(biāo)準(zhǔn)參考書目，被引次數(shù)已超過 75,000 次。Barto 因其在強(qiáng)化學(xué)習(xí)領(lǐng)域的開創(chuàng)性工作獲得了多項(xiàng)榮譽(yù)，包括馬薩諸塞大學(xué)神經(jīng)科學(xué)終身成就獎(jiǎng)、IJCAI 卓越研究獎(jiǎng)和 IEEE 神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)先鋒獎(jiǎng)。他是電氣電子工程師協(xié)會(huì)（IEEE）的會(huì)員，也是美國科學(xué)促進(jìn)協(xié)會(huì)（AAAS）的會(huì)士。

計(jì)算機(jī)界諾貝爾獎(jiǎng)官宣：2024ACM圖靈獎(jiǎng)授予強(qiáng)化學(xué)習(xí)領(lǐng)域的奠基人圖丨Andrew Barto（來源：College of Information and Computer ）

Richard Sutton 是阿爾伯塔大學(xué)計(jì)算機(jī)科學(xué)教授，同時(shí)也是 Keen Technologies 的研究科學(xué)家，并擔(dān)任阿爾伯塔機(jī)器智能研究所（Amii）的首席科學(xué)顧問。Sutton 在強(qiáng)化學(xué)習(xí)領(lǐng)域的影響力深遠(yuǎn)，被認(rèn)為是現(xiàn)代強(qiáng)化學(xué)習(xí)的奠基人之一。他在 20 世紀(jì) 80 年代與 Andrew Barto 合作，共同推動(dòng)了強(qiáng)化學(xué)習(xí)的發(fā)展。Sutton 于 1978 年在斯坦福大學(xué)獲得心理學(xué)學(xué)士學(xué)位，隨后在馬薩諸塞大學(xué)阿姆赫斯特分校獲得計(jì)算機(jī)與信息科學(xué)的碩士和博士學(xué)位。他的研究興趣主要集中在決策者與環(huán)境相互作用時(shí)所面臨的學(xué)習(xí)問題，認(rèn)為這是智能的核心問題。Sutton 在強(qiáng)化學(xué)習(xí)領(lǐng)域的貢獻(xiàn)包括時(shí)序差分學(xué)習(xí)、策略梯度方法和 Dyna 架構(gòu)等。Sutton 的著作《Reinforcement Learning: An Introduction》與 Andrew Barto 共同撰寫，成為該領(lǐng)域的經(jīng)典教材，影響了無數(shù)研究人員和學(xué)生。他曾在 2017 年至 2023 年期間擔(dān)任 DeepMind 的杰出研究科學(xué)家，并在多個(gè)學(xué)術(shù)機(jī)構(gòu)任職，積累了豐富的研究和管理經(jīng)驗(yàn)。Sutton 因其在強(qiáng)化學(xué)習(xí)領(lǐng)域的卓越貢獻(xiàn)獲得了多項(xiàng)榮譽(yù)，包括國際人工智能聯(lián)合會(huì)議（IJCAI）卓越研究獎(jiǎng)和加拿大人工智能協(xié)會(huì)終身成就獎(jiǎng)。他的工作不僅在學(xué)術(shù)界產(chǎn)生了深遠(yuǎn)影響，也為工業(yè)界的應(yīng)用提供了重要支持。

計(jì)算機(jī)界諾貝爾獎(jiǎng)官宣：2024ACM圖靈獎(jiǎng)授予強(qiáng)化學(xué)習(xí)領(lǐng)域的奠基人圖丨Richard Sutton（來源：University of Alberta）

強(qiáng)化學(xué)習(xí)作為機(jī)器學(xué)習(xí)領(lǐng)域的重要分支，有著豐富的發(fā)展歷程。其起源可追溯到 20 世紀(jì) 50 年代，當(dāng)時(shí)科學(xué)家們開始探索讓計(jì)算機(jī)像人類一樣通過試錯(cuò)來學(xué)習(xí)最優(yōu)策略的方法。早期的理論奠基工作為后續(xù)發(fā)展打下了基礎(chǔ)，但受限于計(jì)算能力和數(shù)據(jù)量，強(qiáng)化學(xué)習(xí)在當(dāng)時(shí)并未得到廣泛應(yīng)用。到了 20 世紀(jì) 80 年代，Richard Sutton 和 Andrew Barto 等學(xué)者做出了開創(chuàng)性貢獻(xiàn)。他們系統(tǒng)地闡述了強(qiáng)化學(xué)習(xí)的基本概念和理論框架，提出了時(shí)間差分學(xué)習(xí)算法，如 Q-learning 。Q-learning 能夠在不依賴環(huán)境模型的情況下，通過不斷更新狀態(tài) - 動(dòng)作對(duì)的 Q 值來學(xué)習(xí)最優(yōu)策略，大大簡(jiǎn)化了學(xué)習(xí)過程，為強(qiáng)化學(xué)習(xí)的發(fā)展注入了強(qiáng)大動(dòng)力。進(jìn)入 21 世紀(jì)，隨著計(jì)算機(jī)性能的大幅提升和大數(shù)據(jù)的爆發(fā)式增長，強(qiáng)化學(xué)習(xí)迎來了新的發(fā)展機(jī)遇。深度學(xué)習(xí)的興起更是為強(qiáng)化學(xué)習(xí)帶來了革命性變化，深度強(qiáng)化學(xué)習(xí)應(yīng)運(yùn)而生。深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征表示能力與強(qiáng)化學(xué)習(xí)的決策優(yōu)化能力相結(jié)合，在諸多領(lǐng)域展現(xiàn)出卓越性能。在游戲領(lǐng)域，AlphaGo 利用深度強(qiáng)化學(xué)習(xí)擊敗人類頂尖棋手，震驚世界；在機(jī)器人控制方面，強(qiáng)化學(xué)習(xí)使機(jī)器人能夠自主學(xué)習(xí)完成復(fù)雜任務(wù)，如行走、抓取物體等；自動(dòng)駕駛領(lǐng)域，強(qiáng)化學(xué)習(xí)也在路徑規(guī)劃和決策制定中發(fā)揮著重要作用。

盡管 Barto 和 Sutton 的算法是在數(shù)十年前開發(fā)的，但通過與深度學(xué)習(xí)算法的結(jié)合，強(qiáng)化學(xué)習(xí)的實(shí)際應(yīng)用在過去十五年里取得了重大進(jìn)展。這表明他們的研究具有持久的影響力，并為未來的技術(shù)發(fā)展奠定了基礎(chǔ)。他們的成就激勵(lì)了成千上萬的研究人員投身于強(qiáng)化學(xué)習(xí)領(lǐng)域，推動(dòng)了該領(lǐng)域的持續(xù)發(fā)展和創(chuàng)新。

国产午夜精品一区二区三区不卡_久在线精品视频_成人午夜网站_国内精品一区二区

計(jì)算機(jī)界諾貝爾獎(jiǎng)官宣：2024ACM圖靈獎(jiǎng)授予強(qiáng)化學(xué)習(xí)領(lǐng)域的奠基人

每日福利更多>>