原百度深度學(xué)習(xí)研究院創(chuàng)始人余凱談人工智能大趨勢
余凱認為未來將會實現(xiàn)硬件入口多元化,任意一個設(shè)備都有可能成為入口,而地平線的定位就是要成為人工智能領(lǐng)域的英特爾。
智能硬件熱潮未退,在人工智能這個領(lǐng)域,需要一個能橫跨圖像、語音、自然語言理解和自主控制的平臺型的公司。余凱,百度深度學(xué)習(xí)研究院(IDL)創(chuàng)始人,大概是國內(nèi)能夠把深度學(xué)習(xí)理論講述最清楚的科學(xué)家之一?,F(xiàn)在,他創(chuàng)立地平線機器人,希望能夠成為人工智能領(lǐng)域的英特爾。
「 深度學(xué)習(xí)」
雖然人工智能涉及的領(lǐng)域很廣,但是一個人工智能的系統(tǒng)從功能上看還是有一些共通性的,我認為主要有三個方面,第一個是環(huán)境感知,第二個是思考推理,第三個是決策控制。具體來說,無論是語音識別還是圖像識別,這在過去是獨立分開又很大的兩個領(lǐng)域,最初完全沒有交集,深度學(xué)習(xí)技術(shù)被廣泛使用之后,這兩個領(lǐng)域都過渡到采取深度神經(jīng)網(wǎng)絡(luò)的模型,并產(chǎn)生顯著提高。最新的進展就是AlphaGo圍棋比賽,以一種很直觀的方式讓社會大眾感受到了深度學(xué)習(xí)的進展。
深度學(xué)習(xí)是指對原始的數(shù)據(jù)通過不斷地學(xué)習(xí)、抽象,得到這些數(shù)據(jù)的表達或描述。深度學(xué)習(xí)的發(fā)展經(jīng)歷過幾次高潮和低谷,這一波的高潮業(yè)界公認是從2006年開始,多倫多大學(xué)計算機系教授Geoffery Hinton發(fā)表文章向大家證明可以訓(xùn)練學(xué)習(xí)很深的神經(jīng)網(wǎng)絡(luò)。
2010年左右,深度學(xué)習(xí)的研究和應(yīng)用實現(xiàn)突破,歸結(jié)于下面兩個主要理由。首先是計算能力有了本質(zhì)的提高,另外在互聯(lián)網(wǎng)時代,數(shù)據(jù)出現(xiàn)了爆發(fā)式增長,所以從2010年開始,深度學(xué)習(xí)被大規(guī)模使用在人工智能各個領(lǐng)域。
深度學(xué)習(xí)為什么這幾年得到這么大的關(guān)注?關(guān)鍵原因是性能可以隨著數(shù)據(jù)的增長而提高。其他的機器學(xué)習(xí)的方法可能隨著數(shù)據(jù)的增加,性能提高到某一個點就飽和了。但目前為止對于深度學(xué)習(xí)我們還沒有觀察到這點,這可能是它最值得關(guān)注的地方。深度學(xué)習(xí)在語音識別上的應(yīng)用使其準(zhǔn)確率提高很多,隨后深度學(xué)習(xí)開始被使用到圖像識別等其他領(lǐng)域。大家發(fā)現(xiàn)深度學(xué)習(xí)像是一個大錘子,可以打很多不同的釘子,它是一個很好的工具,解決表面上看很不同的問題。
「 深度學(xué)習(xí)的未來」
深度學(xué)習(xí)的研究目前有四個方向。首先是學(xué)習(xí)如何記憶;第二是學(xué)習(xí)如何關(guān)注與取舍,把注意力集中到需要關(guān)心的細節(jié)上;第三個是增強學(xué)習(xí),學(xué)習(xí)如何控制主動行動;第四個采用深度學(xué)習(xí)解決任務(wù)的新方式,就是序列化地逐步解決一個復(fù)雜問題。
目前,絕大多數(shù)深度學(xué)習(xí)完成的任務(wù),還是根據(jù)一個輸入信號得到一個輸出的結(jié)果,無論是語音識別還是圖像識別。比如,深度學(xué)習(xí)進行了分類,你給計算機一個圖像,它可以告訴你是貓還是狗,你對計算機說句話,它可以識別出來,這是現(xiàn)在的狀態(tài)?,F(xiàn)在深度學(xué)習(xí)的前沿是如何去學(xué)習(xí)保留一個長時記憶,進而完成一個復(fù)雜的任務(wù),就像假如我們聽課時有個筆記本可以做筆記,那么我們選擇哪些知識寫在筆記本上,如何寫這些知識,就是如何去記憶。所以一個新的趨勢就是如何通過深度學(xué)習(xí)的方法,把之前很長一段時間的序列數(shù)據(jù),抽象提取精華記錄下來或者記憶下來,幫助計算機將來做判斷、做分析、做決策。
第二個方向是注意力模型,動態(tài)的將注意力集中到某些細節(jié),提高識別性能。比如,看圖說話圖像理解,你根據(jù)一幅圖生成一句話,很可能是非常宏觀的。如果我們能夠把注意力聚焦在從引入到識別的機制過程中,根據(jù)目前的識別結(jié)果,動態(tài)地一步一步調(diào)整聚焦到圖像的細節(jié),那么就可以生成一些更合理或者更精細的表達,比如在圖像中,關(guān)注一個飛碟,我們可以調(diào)整關(guān)注區(qū)域在圖像中把飛碟找出來,提取它的特征進行識別。
深度學(xué)習(xí)還有一個方向是增強學(xué)習(xí),目前的深度學(xué)習(xí)都是通過大量的數(shù)據(jù)在線下學(xué)習(xí)一個模型,把這個模型基本學(xué)好了,到線上只是應(yīng)用。增強學(xué)習(xí)是指計算機可以結(jié)合當(dāng)前狀態(tài)的改變而采取進一步措施,得到一些反饋和收益,同時也改變了自身的環(huán)境,與周圍環(huán)境在一種動態(tài)過程中一起演化不斷決策。比如無人機在遇到障礙物的時候判斷該往哪個方向飛,它會收集到周圍很多信號,然后去做一個決策,是往左偏還是往右偏?是不是失衡了?它需要根據(jù)環(huán)境的反饋和自身的狀態(tài),不斷修正,根據(jù)反應(yīng)的每一個結(jié)果繼續(xù)做出反應(yīng)決策,這就是增強學(xué)習(xí)的大體過程。
無論是長時間學(xué)習(xí)還是增強學(xué)習(xí),這些都是人工智能底層架構(gòu)通用的功能,我們認為未來會需要這樣的平臺,可以將這些功能集合在一起,但又能適用于解決大多數(shù)的人工智能任務(wù)。
「 地平線的野心」
互聯(lián)網(wǎng)的本質(zhì)是連接,連接人和信息、人和商品、人和服務(wù)。然而任何連接都需要通過媒介進行,PC時代,用戶通過瀏覽器進入互聯(lián)網(wǎng),瀏覽器幾乎是當(dāng)時唯一的互聯(lián)網(wǎng)入口;到了移動互聯(lián)網(wǎng)時代,瀏覽器的職責(zé)被分化到多個APP上,軟件時代的APP化使連接媒介更加多樣。
但隨著硬件智能化的到來,未來汽車、家電、玩具都有可能變得越來越智能,而這必將導(dǎo)致連接媒介和交互方式的巨大變革。很難想象,我需要掏出手機來操控某個家電、洗衣機或者空調(diào)。
比如,未來很多家居產(chǎn)品上會有個屏幕,展現(xiàn)非常豐富的信息。在這樣的場景下,用戶將不再需要通過遙控器或者打開手機APP來操控家電,更多的是直接和設(shè)備進行交流、交互。除了交互方式的變革外,隨著智能硬件表達和處理信息的能力越來越強,可以作為連接媒介更好地讓人們獲取信息和服務(wù)。
最近幾年人工智能很熱,很多創(chuàng)業(yè)者都希望能夠在這個領(lǐng)域有一番作為,但人工智能實際上是語音圖像識別、語義理解、大數(shù)據(jù)分析等技術(shù)的高度集合,其中的每一項技術(shù)都需要巨大的時間和研發(fā)成本的投入。如果創(chuàng)業(yè)者要基于這些技術(shù)開發(fā)相應(yīng)的產(chǎn)品功能,滿足用戶需求,依靠自身的力量顯然是不現(xiàn)實的。因而在人工智能這個領(lǐng)域,需要一個能橫跨圖像、語音、自然語言理解和自主控制的平臺型的公司。
放到手機行業(yè)會更容易理解,開發(fā)者可以開發(fā)很多應(yīng)用程序,比如微信、滴滴出行、大眾點評,以此來滿足用戶不同的需求。但這些都是基于高通或者聯(lián)發(fā)科等公司提供的芯片,以及iOS或者安卓等操作系統(tǒng),基于這樣一個成熟的軟硬件相結(jié)合的平臺,開發(fā)者才能開發(fā)各種APP。