2017年秋,紐約大學的計較說話學家薩姆·鮑曼(Sam Bowman)認為,計較機仍然不敷擅長理解文字。當然,在某些很是特定的范疇中,計較機已經可以很好地模擬對文字的理解,好比機械翻譯和感情闡發(如確定一個句子是善意仍是惡意的)。但鮑曼但愿從對真實文章的測試中獲得可權衡機械理解能力的證據:真正的、人類式的英語閱讀理解(能力)。是以,他設計了一項知名的測試。
在2018年4月頒發的一篇論文中,鮑曼與華盛頓大學及谷歌旗下人工智能公司DeepMind的研究人員合作,提出了一項名為GLUE(General Language Understanding Evaluation,綜合說話理解測評)的系列測試,共包含九個閱讀理解使命。該測試是“研究人員所公認的高難挑戰中具有代表性的一部門”,鮑曼說,固然這"對于人類而言不當作問題"。此中一個使命是基于前一句話判定某一個句子是否準確,例如,若是您能從“特朗普總統搭機抵達伊拉克并起頭為期一周的國是拜候”揣度出“特朗普正出訪海外”,那么您就經由過程了測試。
成果,機械的測試成就慘不忍睹。即使是最進步前輩的神經收集也沒有在任何一項使命中得分跨越69分,或者說,在D+以上。對此,鮑曼和他的合作者都不覺不測。神經收集粗略地仿照哺乳動物大腦中神經元的毗連模式,來搭建計較毗連層,雖在天然說話處置(NLP)這一范疇揭示出了不小潛力,可是研究者們并不相信這些系統學到了任何干于說話素質的工具。而GLUE似乎也證實了這一點。“這些初期表示申明,現有的練習模子和方式還無法令機械經由過程GLUE。”鮑曼和他的合作者在論文中寫道。
但他們的評價很快就被打破了。2018年10月,谷歌推出了一種新練習模子,綽號為BERT(Bidirectional Encoder Representations from Transformers, 轉換器輸出式雙標的目的編碼器暗示)。它在GLUE測試中拿到了80.5分。設計者們但愿這個全新的基準東西可以或許幫忙測量機械對天然說話的真實理解力,或是揭露機械在這方面的欠缺。而此刻,機械僅用六個月的時候就從D-晉升到了B-的理解程度。
“這絕對是個能讓您喊出‘臥槽’的時刻!”鮑曼回憶道,“BERT在好幾項使命中已經獲得了接近人類可能獲得的分數,而業界遍及對此持思疑立場。”在BERT呈現之前,GLUE測試甚至還未設置人類的基準分數。而當鮑曼和他的一個博士生在2019年2月插手人類基準分數之后,微軟研發的一個基于BERT的系統只用了幾個月的時候就超越了它們。
—Simon Prades
筆者在寫這篇文章時,GLUE頭排得分榜上的每一個系統幾乎都是在BERT的根本上優化而當作的,此中有五個系統在得分上均跨越了人類。
但這是否意味著,機械真地起頭理解了我們的說話,仍是說它只是學會了更好地應付我們的測試?當BERT系神經收集如疾風驟雨般霸占了GLUE,新的測試方式也隨之呈現。在這些新測試中,強力的NLP系統被描畫當作了“伶俐的漢斯”(概況上會做算術題,但現實上只會無意識地遵循練習者的提醒)。
鮑曼說:“其實我們正處在一個尷尬的灰色地帶,一邊是對NLP問題的無聊的特別解,一邊是亟待破解的人工智能的曙光。整個范疇遍及的反映是:為什么我們會晤對這種處境?這意味著什么?此刻我們又該做什么?”
機械自定例則
在知名的思惟嘗試“中文房間”里,一個不會說中文的人身處某房間中,他的手邊有很多中文語法書。這些語法書具體地申明了若何對收到的一系列中文字符給出響應的回覆。當房間外的人從門縫塞進一張紙條,紙條上是用中文寫的一個問題,房間里的人可以查看語法書,然后送出一個完美的中文回覆。
這個思惟嘗試表白,無論外面的人認為里面的人回覆得何等精確,都不克不及說里面的人理解了中文。不外,即使機械只是模擬出人類的理解能力,在天然說話處置這個高難范疇,也是實屬不易。
此刻獨一的問題是:這些所謂完美的語法書并不存在。天然說話過于復雜和隨意,很難還原當作一系列嚴酷的法則,如句法(也就是支配詞語構成有意義的句子的經驗/法則)。聞名說話學家諾姆·喬姆斯基曾舉過一個例子:“無色的綠色不雅念憤慨入睡。”(colorless green ideas sleep furiously)這句話句法準確,可是任何一位措辭人都知道這是一句無意義的廢話。天然說話有著無數這種只可領悟不成言傳的法則,那么,如何的一本預先寫就的語法書方能將其全數囊括呢?
NLP研究者們測驗考試將不成能變為可能。他們用一種叫“預練習”的方式練習神經收集生當作姑且的“語法書”。
在2018年以前,NLP模子的預練習東西之一是某種近似于辭典的工具。這一名為“詞嵌入”的東西將單詞之間的聯絡編碼當作數字,作為輸入去練習深度神經收集,半斤八兩于給了“中文房間”里的人一本很是簡單的詞匯書。然而,用詞嵌入預練習的神經收集仍然無法從句子層面理解單詞的寄義,“它會感覺‘一小我咬了那只狗’和‘一只狗咬了那小我’表達了完全不異的意思。”約翰·霍普金斯大學的計較說話學家塔爾·林岑(Tal Linzen)如是說。
Tal Linzen——圖片來歷:Will Kirk/Johns Hopkins University
一種更佳的練習方式是:應用涵蓋詞匯、句法和上下文的預練習使神經收集具備更豐碩的“語法書”,接著練習它去執行特定的NLP使命。2018年頭,來自OpenAI、舊金山大學、艾倫人工智能研究所和華盛頓大學的研究者們,同時發現了一種可以接近這一宏偉方針的伶俐方式。他們起頭用一種更為根本的名為“說話模子”的使命來練習整個神經收集,這分歧于之前的神經收集只用詞嵌入來預練習第一層神經元。
“最簡單的說話模子就是:先讀部門單詞,然后測驗考試展望將呈現的下一個詞。若是我說‘喬治·布什出生在’,這種模子需要展望這個句子中的下一個詞。”Facebook研究科學家麥爾·奧特(Myle Ott)這樣詮釋道。
其實,這些顛末深度預練習的說話模子搭建起來相對不難。研究者只需從開源數據庫如維基百科中拷貝大量的文本,把由上億單詞構成的語法準確的句子輸入神經收集,然后讓它本身得出對下一個詞的展望。現實上,這就像讓“中文房間”里的那小我以送進來的中文信息為參考,本身編寫出本身的語律例則。
奧特說:“這種練習體例的益處是說話模子現實上會學到良多關于句法的工具。”
以這種體例預練習后的神經收集可以用更豐碩的暗示方式執行其他更具體的NLP使命,其具體應用過程被稱作微調。
“從預練習起頭,您就可以改編一個說話模子,讓它執行您想執行的使命,”奧特詮釋說,“比擬直接練習模子執行邃密的使命,利用預練習改編模子可以獲得更好的成果。”
2018年6月,OpenAI推出了一個名為GPT的神經收集,此中包羅一個用11038本電子書接近十億單詞量預練習的說話模子。該神經收集以72.8的得分直接占有了那時GLUE的榜首。即便如斯,薩姆·鮑曼仍是認為在閱讀理解能力上,任何機械的表示離人類程度都還很遠。
緊接著,BERT呈現了。
壯大的“配方”
所以,BERT事實是什么?
起首,它并不是一個顛末完整練習的神經收集,也不克不及直接超越人類程度,而是鮑曼所說的“一個很是切確的預練習方案”。谷歌的研究者開辟了BERT,讓神經收集以它為根本,進修若何完當作各類NLP使命,這就像讓一個糕點師傅按照配方做出預先烤好的餡餅皮,然后用它做出各類各樣的餡餅(藍莓餡或菠菜餡的)。同時,谷歌開源了BERT的代碼,讓其他科研人員不必再從頭搭建這個“配方”,只需打包下載BERT即可,就像在“超市買預制的餡餅皮”那樣簡單。
若是說BERT就像一個配方,那么它需要什么原材料呢?“整個模子的當作功有三個方面的原因。”Facebook研究科學家奧馬爾·利維(Omer Levy)談道。他致力于研究BERT當作功的原因。
Omer Levy——圖片來歷:Omer Levy
起首,要有一個預練習的說話模子,也就是“中文房間”里的語法書。其次是識別句子中首要特征的能力。
2017年,谷歌大腦的工程師雅各布·烏茲科萊特(Jakob Uszkoreit)正在盡力增強谷歌在機械理解說話范疇的競爭力。他注重到,即使是最進步前輩的神經收集也受到一個內置特征的約束:它只會從左到右一一閱讀句子中的單詞。概況上這種"挨次閱讀"似乎模擬了人類閱讀的模式,但烏茲科萊特思疑“線性、挨次地輿解說話可能并不是最優的體例”。
于是,烏茲科萊特和他的合作者為神經收集設計了一種新的架構。這種架構的焦點在于“注重力”分派機制,也就是讓每一層神經元給輸入中的某種特征增添權重。這種注重"注重力"的架構名為轉換器(transformer)。它會把“一只狗咬那小我”句子中的每個單詞編碼當作多種分歧的形式。舉例來說,一個轉換器可以把“咬”和“人”當當作動詞和賓語,忽略失落“一只”這個詞;同時它也可以把“咬”和“狗”當當作動詞和本家兒語,根基上忽略“那個”這種詞。
轉換器以這種非序列的形式把句子暗示為更具表達力的形式。烏茲科萊特稱這種非序列的形式為樹形(treelike)。神經收集的每一層神經元代表單詞之間多個互相平行的毗連,兩個不相鄰的單詞經常會被毗連在一路,就像小學生分辯句子當作分時畫的樹形圖。“這現實上就像很多彼此重疊的樹形圖。”烏茲科萊特詮釋道。
樹形的暗示方式讓轉換器可以或許很好地成立上下文理解的模子,同時也能更好地進修相隔很遠的兩個單詞之間的聯系。“這顯得有些違反直覺,”烏茲科萊特說,“但該模子的根本是說話學,后者一向以來都在研究說話的樹狀模子。”
最后,BERT配方中第三個“原材料”則加倍方向這種非線性的閱讀體例。
與其他的預練習說話模子分歧,BERT并不依靠只從左到右閱讀大量的文字來練習神經收集,而是同時從左、從右兩個偏向起頭閱讀,進修若何展望中心被隱去的單詞。好比說,BERT收到的輸入是“喬治·布什1946年……于康涅狄格州。”它會從擺布兩個偏向解析文本,展望出句子中段的單詞“出生”。烏茲科萊特說:“這種雙標的目的閱讀讓神經收集學會在展望之前,從肆意單詞的組合中獲取盡可能多的信息。”
BERT所利用的這種選詞填空式的預練習使命名為掩蔽說話模子(masked-language modeling)。事實上,幾十年來,我們一向在用它評估人類的說話理解能力。谷歌則把它看成一種練習神經收集進行雙標的目的閱讀的東西,以此取代曩昔最風行的單標的目的閱讀預練習模子。“在BERT之前,單標的目的閱讀的說話模子是業界尺度,即使它也帶來了不需要的限制。”谷歌研究科學家肯頓·李(Kenton Lee)說道。
在BERT呈現之前,這三種“原材料”——深度預練習說話模子、注重力機制和雙標的目的閱讀——早已各自呈現。但從未有人想到把它們組合起來,直到谷歌在2018年底發布了BERT。
Jakob Uszkoreit——圖片來歷:Google
改良的“配方”
好配方總招人喜好!BERT被各路“大廚”陸續改良當作他們本身的氣概。在2019年春的一段時候中,“微軟和阿里巴巴不竭地批改BERT模子、彼此超越,在GLUE排行榜上輪換頭名。”鮑曼回憶道。2019年8月,BERT的進階版RoBERTa登上了舞臺。那時,DeepMind研究員塞巴斯蒂安·魯德(Sebastian Ruder)在他廣受接待的NLP時事通信中波瀾不驚地評論道:“又一個月,又一個更進步前輩的預練習模子(出來了)。”
BERT這個“餡餅皮”包羅了一系列布局設計上的決議計劃機制,每一處都對模子的結果有影響。這此中就包羅“烘烤”出來的神經收集的巨細、預練習數據集的巨細、數據集被掩蔽的體例以及神經收集的練習時長。后來呈現的“配方”,包羅RoBERTa,都是研究者調整這些決議計劃機制的成果,就像廚師們會不竭改良菜式一樣。
以練習RoBERTa為例,Facebook和華盛頓大學的研究者們加進了很多新材料(更多的預練習數據、更長的輸入序列、更多的練習時候),去失落了一種(如“展望下一句話”,此使命原本包含在BERT中,不外后來發現它會降低模子表示),又調整了另一種(增添了掩蔽說話預練習使命的難度)。練習成果呢?直取GLUE排名首位。六個禮拜后,微軟和馬里蘭大學的研究人員做出了他們的RoBERTa點竄版,艱難地再次取勝。在寫作這篇文章時,又有另一個叫ALBERT的模子——全稱是“一個輕量級BERT”(A Lite BERT)——經由過程更邃密的調整練習,其表示占有了GLUE榜首。
“我們還在測驗考試弄清晰哪些‘配方’能奏效,哪些不可。”奧特說。
不外,即使我們再怎么完美做餡餅的技巧也不太可能悟到化學道理,不竭地優化BERT也不會給我們增添天然說話處置方面的什么理論常識。“真話告訴您:我對這些論文不太感樂趣,因為我感覺它們出格無聊。”約翰·霍普金斯大學的計較說話學家林岑說。“這是一個科學謎題”,他認可,可是謎底并不在于若何讓BERT和其他模子變得更伶俐,或者大白為何它們變得伶俐。相反,“我們正試圖理解這些模子在何種水平上真正理解了人類說話,”而不是“發現了一些可巧在測試的數據集上有效的奇技淫巧”,林岑說道。
BERT確其實練習中不竭獲得高分,但換句話說,萬一它的解答思緒錯了呢?
機械伶俐,但不智能
2019年7月,臺灣國立當作功大學的兩位研究者練習BERT完當作一項較高難度的天然說話理解基準使命:論證推理理解。BERT取得了令人印象深刻的成就。
這一使命要求被試者選出一個論證中合適的、可以或許支撐論點的隱含前提。舉例來說,若是要用“科學研究表白抽煙和癌癥之間的聯系”這一論據來論證“抽煙導致癌癥”的論點,我們需要假設“科學研究是可托的”,而不是“科學研究是昂貴的”。后者可能自己是準確的陳述,可是在本闡述中沒有任何意義。機械,讀懂了嗎?
若是它做不到,也不妨。因為就算是我們人類也很難完全準確地經由過程這項使命:一個未受練習的人平均基準得分只有80分。
而BERT得了77分——文章作者隱晦地暗示這成果是“令人驚奇的”。
對此,但他們并不認為,BERT練習能讓神經收集獲得亞里士多德式的邏輯推理能力。相反,他們給出了一個更簡單的詮釋:BERT只是歸納了隱含前提的表層模式。
事實恰是如斯。在從頭闡發了練習數據集之后,研究者們發現了子虛提醒存在的證據。例如純真選擇包含“不”的選項就可以做對61%的題。抹去這些子虛提醒之后,BERT的得分從77分下降到了53分——和一小我隨便亂蒙差不多。還有,斯坦福大學人工智能嘗試室出書的機械進修雜志《梯度》(The Gradient) 收錄了一篇文章,其將BERT比作“伶俐的漢斯”,那匹有名的“會算術”的馬。
在另一篇叫做《成果準確,但推理錯誤》(Right for the Wrong Reasons)的論文中,林岑和他的合著者頒發了一系列證據,申明BERT在某些GLUE使命中的優異表示可能同樣是“得益于”數據集里的子虛提醒。這篇論文包羅了一個新數據集,專門揭露BERT在GLUE中利用的“捷徑”。數據集的名字叫“對天然說話推論系統的開導式闡發”(Heuristic Analysis for Natural-Language-Inference Systems,簡稱HANS)
所以說,BERT和它那些霸榜的“兄弟姐妹”都是一場圈套?
鮑曼和林岑均認為GLUE的一部門練習數據比力紊亂,布滿了由締造者引入的微妙誤差,而所有的這些誤差都可能被壯大的BERT系神經收集所操縱。“沒有哪一種幻術能讓神經收集完當作(GLUE的)所有使命,可是想要提高它的表示,卻有良多條捷徑可以走,”鮑曼說道,“而BERT可以發現這些捷徑。”但同時他也不認為BERT只是徒有其表。“看起來這些模子確實學到了一些關于說話的常識,”他說,“可是它必定沒有以一種周全而不變的體例理解英文。”
華盛頓大學和艾倫研究所的計較機科學家崔藝珍(Yejin Choi,音譯)認為,要想朝真正理解說話這一方針繼續成長,人們不克不及僅僅專注于成長更壯大的BERT,也需要設計更好的測試基準和練習數據,以便降低機械走捷徑的可能。她研究一種名為“匹敵過濾”(adversarial filtering)的方式,利用算法來掃描NLP練習數據集,并刪除過度反復的示例,以免為神經收集引入子虛的提醒。她說,顛末匹敵過濾后,“BERT的練習表示可能會大大降低,可是同期人類的表示不會下降太多。”
不外,一些NLP研究人員仍是認為,即使顛末更好的練習,神經收集說話模子仍然會晤臨一個底子性的障礙。即使有壯大的預練習,BERT也不克不及完美地成立通用的說話模子,而是顛末微調后,對“特定的NLP使命甚至只是該使命的特定命據集”進行建模,馬薩諸塞州大學洛厄爾分校文本機械嘗試室的計較說話學家安娜·羅杰斯(Anna Rogers)說。而無論數據集設計得何等完美、篩選得何等細心,都無法囊括所有極端環境和不成預見的輸入,但我們人類在利用天然說話時卻能毫不吃力地應對它們。
鮑曼指出,很難想象神經收集若何讓我們相信它真正理解了說話。究竟結果,尺度化的測試理應揭示關于考生常識的素質的、可泛化的信息。但就像每個備考過SAT的人所知,這些測試也會被技巧蒙混過關。鮑曼說:“我們但愿設計出足夠堅苦且不受棍騙的測試,這樣解決[它們]能使我們相信,我們已經完全把握了人工智能或說話研究手藝的某一方面,但這很是堅苦。”
鮑曼與合作者比來推出了一項叫SuperGLUE的新測試。這項測試對BERT系的神經收集來說尤其堅苦。直到此刻,還沒有哪個神經收集做出跨越人類的表示。可是,若是發生了這種環境,這是否就意味著機械真地可以或許更好地輿解說話?仍是說,這僅僅意味著科學可以或許更好地教會機械應付我們的測試?
“有一個很好的類比,”鮑曼說,“就算我們知道如何做對LSAT和MCAT的標題問題,我們也紛歧定能勝任大夫和律師的工作。”而這似乎恰是人工智能研究歷經的道路,他彌補道。“在我們弄清晰若何編寫國際象棋走棋程序之前,大師都感覺國際象棋是對智力的一種真正考驗,”他說,“我們這個時代的方針,必然是不竭提出更難的問題來測試機械的說話理解能力,然后不竭思考若何解決這些問題。”
翻譯:喬恩 校對:阿格 編纂:三文魚
0 篇文章
如果覺得我的文章對您有用,請隨意打賞。你的支持將鼓勵我繼續創作!