資訊:斯坦福最新研究警告:別太迷信大模型涌現(xiàn)能力,那是度量選擇的結(jié)果

來源: 騰訊網(wǎng) 2023-05-03 13:49:44

機器之心報道

編輯:蛋醬、Panda W


(相關(guān)資料圖)

大模型出現(xiàn)后,涌現(xiàn)這一術(shù)語開始流行起來,通常表述為在小規(guī)模模型中不存在,但在大規(guī)模模型中存在的能力。但斯坦福大學的研究者對 LLM 擁有涌現(xiàn)能力的說法提出了質(zhì)疑,他們認為是人為選擇度量方式的結(jié)果。

「別太迷信大模型的涌現(xiàn),世界上哪兒有那么多奇跡?」斯坦福大學的研究者發(fā)現(xiàn),大模型的涌現(xiàn)與任務(wù)的評價指標強相關(guān),并非模型行為在特定任務(wù)和規(guī)模下的基本變化,換一些更連續(xù)、平滑的指標后,涌現(xiàn)現(xiàn)象就不那么明顯了,更接近線性。

近期,由于研究者們觀察到大型語言模型(LLMs),如 GPT、PaLM、LaMDA 可以在不同的任務(wù)中表現(xiàn)出所謂的「涌現(xiàn)能力」,這一術(shù)語在機器學習領(lǐng)域得到了極大關(guān)注:

事實上,復(fù)雜系統(tǒng)的新興特性一直以來都是物理學、生物學、數(shù)學等學科在研究的重點。

值得注意的一個觀點是,諾貝爾物理學獎獲得者 P.W.Anderson 提出了「More Is Different」。這一觀點認為,隨著系統(tǒng)復(fù)雜性的增加,新的屬性可能會具象化,即使從對系統(tǒng)微觀細節(jié)的精確定量理解中并不能(容易或根本無法)預(yù)測到。

大模型領(lǐng)域的「涌現(xiàn)」如何定義?一種通俗的說法是「在小規(guī)模模型中不存在,但在大規(guī)模模型中存在的能力」,因此,它們不能通過簡單地推斷小規(guī)模模型的性能改進來預(yù)測。

這種涌現(xiàn)的能力可能首先在 GPT-3 家族中被發(fā)現(xiàn)。后續(xù)的一些工作強調(diào)了這一發(fā)現(xiàn):「雖然模型性能在一般水平上是可以預(yù)測的,但在特定任務(wù)上,其性能有時會在規(guī)模上出現(xiàn)相當難以預(yù)測的涌現(xiàn)」。事實上,這些涌現(xiàn)能力非常令人驚訝,以至于「突然的、特定的能力擴展」已經(jīng)被認為是 LLM 的兩個最高定義特征之一。此外,「breakthrough capabilities」和「sharp left turns」等術(shù)語也被使用。

綜上所述,我們可以確定 LLM 涌現(xiàn)能力的兩個決定性屬性:

1. 敏銳性,從「不存在」到「存在」似乎只是瞬間的過渡;

2. 不可預(yù)測性,在看似不可預(yù)見的模型規(guī)模內(nèi)過渡。

與此同時,還有一些問題懸而未決:是什么控制了哪些能力會涌現(xiàn)?什么控制著能力的涌現(xiàn)?我們怎樣才能使理想的能力更快地涌現(xiàn),并確保不理想的能力永不涌現(xiàn)?

這些問題與人工智能的安全和對齊息息相關(guān),因為涌現(xiàn)的能力預(yù)示著更大的模型可能有一天會在沒有警告的情況下獲得對危險能力的掌握,這是人類不希望發(fā)生的。

在最新的一篇論文中,斯坦福大學的研究者對 LLM 擁有涌現(xiàn)能力的說法提出了質(zhì)疑。

論文:https://arxiv.org/pdf/2304.15004.pdf

具體而言,此處的質(zhì)疑針對的是在特定任務(wù)中模型輸出作為模型規(guī)模的函數(shù)而發(fā)生的涌現(xiàn)和不可預(yù)測的變化。

他們的懷疑基于以下觀察:似乎只有在非線性或不連續(xù)地擴展任何模型的 per-token 錯誤率的度量下,模型才會出現(xiàn)涌現(xiàn)能力。例如,在 BIG-Bench 任務(wù)中,>92% 的涌現(xiàn)能力是這兩個度量下出現(xiàn)的:

這就為 LLMs 的涌現(xiàn)能力的起源提出了另一種解釋的可能性:盡管模型族的 per-token 錯誤率會隨著模型規(guī)模的增加進行平滑、持續(xù)且可預(yù)測地變化,但看似尖銳和不可預(yù)測的變化可能是由研究者選擇的測量方法引起的。

也就是說,涌現(xiàn)能力可能是一種海市蜃樓,主要是由于研究者選擇了一種非線性或不連續(xù)地改變 per-token 錯誤率的度量,部分原因是由于擁有太少的測試數(shù)據(jù),不足以準確估計較小模型的性能(從而導(dǎo)致較小的模型看起來完全不能執(zhí)行任務(wù)),另一部分原因是由于評估了太少的大規(guī)模模型。

為了闡述這種解釋方式,研究者將其作為一個簡單的數(shù)學模型,并證明它是如何從數(shù)量上再現(xiàn)為支持 LLM 的涌現(xiàn)能力而提供的證據(jù)。然后,研究者以三種互補的方式檢驗了這種解釋:

1. 使用 InstructGPT [24]/GPT-3 [3] 模型系列,根據(jù)替代假說做出、測試并確認三個預(yù)測。

2. 對先前的一些結(jié)果進行了元分析,并表明在任務(wù)指標 - 模型家族三聯(lián)體的空間中,出現(xiàn)的能力只出現(xiàn)在某些指標上,而不是任務(wù)上的模型家族(列)。該研究進一步表明,在固定的模型輸出上,改變度量會導(dǎo)致涌現(xiàn)現(xiàn)象的消失。

3. 故意在不同架構(gòu)的深度神經(jīng)網(wǎng)絡(luò)中誘導(dǎo)出多個視覺任務(wù)的涌現(xiàn)能力(這在以前從未被證明過),以顯示類似的度量選擇如何誘導(dǎo)出看似涌現(xiàn)的能力。

檢驗一:InstructGPT/GPT-3 模型系列分析

研究者選擇了 GPT 系列模型進行進一步分析,原因在于它是可公開查詢的,這一點和其他模型系列不同(例如 PaLM、LaMDA、Gopher、Chinchilla)。在此前的研究中,GPT 系列模型被認為在整數(shù)算術(shù)任務(wù)中展示出涌現(xiàn)能力。此處,研究者也選擇了整數(shù)算術(shù)這一任務(wù)。

圖 2: 大型語言模型的涌現(xiàn)能力是研究者分析的創(chuàng)造物,而不是模型輸出隨規(guī)模變化的根本性變化。

正如第 2 節(jié)中用數(shù)學和圖表解釋的那樣,研究者提出的替代解釋可以預(yù)測出三個結(jié)果:

1. 隨著模型規(guī)模提升,如果將度量從非線性 / 不連續(xù)的度量(圖 2CD)換成線性 / 連續(xù)的度量(圖 2EF),那么應(yīng)該會有平滑的、連續(xù)的、可預(yù)測的性能提升。

2. 對于非線性的度量,如果通過增大測試數(shù)據(jù)集的大小而提升所測模型性能的分辨率,那么應(yīng)該能讓模型得到平滑的、連續(xù)的、可預(yù)測的提升,并且該提升的比例與所選度量的可預(yù)測的非線性效應(yīng)是相對應(yīng)的。

3. 無論使用什么度量指標,提升目標字符串長度都應(yīng)該會對模型性能產(chǎn)生影響,該影響是長度為 1 的目標性能的一個函數(shù):對于準確度是近乎幾何的函數(shù),對于 token 編輯距離是近乎準線性的函數(shù)。

為了測試這三個預(yù)測結(jié)論,研究者收集了 InstructGPT/GPT-3 系列模型在兩個算術(shù)任務(wù)上的字符串輸出結(jié)果:使用 OpenAI API 執(zhí)行 2 個兩位數(shù)整數(shù)之間的兩樣本乘法以及 2 個四位數(shù)整數(shù)之間的兩樣本加法。

圖 3:隨著模型規(guī)模提升,改變度量可以為性能帶來平滑、連續(xù)、可預(yù)測的改變。

從左至右:數(shù)學模型,2 個兩位數(shù)整數(shù)乘法任務(wù), 2 個四位數(shù)整數(shù)加法任務(wù)。上方的圖是使用一個非線性度量(如準確度)而測得的模型性能,可看到 InstructGPT/GPT-3 系列模型的性能在目標長度更長時顯得銳利和不可預(yù)測。而下方的圖是使用一個線性度量(如 token 編輯距離)而測得的模型性能,此系列模型表現(xiàn)出了平滑的、可預(yù)測的性能提升,這是研究者宣稱的涌現(xiàn)產(chǎn)生的能力。

預(yù)測:涌現(xiàn)能力在線性度量下會消失

在這兩個整數(shù)乘法和加法任務(wù)上,如果目標字符串的長度是 4 或 5 位數(shù)字并且性能的度量方式是準確度(圖 3 上一行圖),那么 GPT 系列模型會展現(xiàn)出涌現(xiàn)的算術(shù)能力。但是,如果將一個度量從非線性換成線性,同時保持模型的輸出固定,那么該系列模型的性能會得到平滑、連續(xù)和可預(yù)測的提升。這就確認了研究者的預(yù)測,由此表明銳利和不確定性的來源是研究者所選擇的度量,而非模型的輸出的變化。還可以看到,在使用 token 編輯距離時,如果將目標字符串的長度從 1 增大至 5,那么可預(yù)見該系列模型的性能會下降,并且下降趨勢是近乎準線性的,這符合第三個預(yù)測的前半部分。

預(yù)測:涌現(xiàn)能力隨著更高的分辨率評估的出現(xiàn)而消失

接下來是第二個預(yù)測:即使是用準確度等非線性度量,更小模型的準確度也不會為零,而是高于偶然性的非零值,其比例是與選擇使用準確度為度量相對應(yīng)的。為了提升分辨率,以進一步能準確估計模型準確度,研究者還生成了其它一些測試數(shù)據(jù),然后他們發(fā)現(xiàn):不管是在整數(shù)乘法任務(wù)上還是在整數(shù)加法任務(wù)上,InstructGPT/GPT-3 系列的所有模型都得到了超過偶然性的正值準確度(圖 4)。這驗證了第二個預(yù)測??梢钥吹?,隨著目標字符串長度增大,準確度會隨目標字符串的長度而呈現(xiàn)近乎幾何式的下降,這符合第三個預(yù)測的后半部分。這些結(jié)果還表明研究者選擇的準確度會產(chǎn)生一些我們應(yīng)該能預(yù)料到的(近似)效果,即隨目標長度而近乎幾何式地衰減。

圖 4:使用更多測試數(shù)據(jù)集得到了更好的準確度估計,這揭示出性能的變化是平滑的、連續(xù)的和可預(yù)測的。

從左至右:數(shù)學模型,2 個兩位數(shù)整數(shù)乘法任務(wù), 2 個四位數(shù)整數(shù)加法任務(wù)。通過生成更多測試數(shù)據(jù)來提升分辨率,揭示出即使是在準確度度量上,InstructGPT/GPT-3 系列模型的性能也是超出偶然結(jié)果的,并且其在兩種涌現(xiàn)能力上的提升是平滑的、連續(xù)的和可預(yù)測的,這兩種涌現(xiàn)能力的結(jié)果在定性上是與數(shù)學模型相符的。

檢驗二:模型涌現(xiàn)的元分析

由于 GPT 系列模型是可以公開查詢使用的,因此可以對它們進行分析。但是,其它一些也有人聲稱具備涌現(xiàn)能力的模型(比如 PaLM、Chinchilla、Gopher)卻并不是公開可用的,它們生成的輸出也沒有公開,這意味著研究者在分析已發(fā)表結(jié)果時是受限的。研究者基于自己提出的替代假設(shè)給出了兩個預(yù)測:

第一,在「任務(wù) - 度量 - 模型系列」三元組的「群體層面(population level)」上,當選擇使用非線性和 / 或非連續(xù)度量來評估模型性能時,模型應(yīng)當會在任務(wù)上表現(xiàn)出涌現(xiàn)能力。

第二,對于展現(xiàn)出了涌現(xiàn)能力的特定「任務(wù) - 度量 - 模型系列」三元組,如果將度量改變成線性和 / 或連續(xù)度量,那么涌現(xiàn)能力應(yīng)該會被消除。

為了測試這兩個假設(shè),研究者調(diào)查了聲稱在 BIG-Bench 評估套件上涌現(xiàn)出的能力,因為在該套件上的基準是公開可用的,并且也有很好的文檔。

預(yù)測:涌現(xiàn)能力應(yīng)該主要出現(xiàn)在非線性 / 非連續(xù)度量上

為了測試第一個預(yù)測,研究者分析了在哪些指標上,不同的「任務(wù) - 模型系列」配對是否會出現(xiàn)涌現(xiàn)能力。為了確定一個「任務(wù) - 度量 - 模型系列」三元組是否可能展現(xiàn)出涌現(xiàn)能力,他們借用了論文《Beyond the imitation game: Quantifying and extrapolating the capabilities of language models》中引入的定義。令 y_i ∈ R 表示模型大小為 x_i ∈ R 時的模型性能,并使得 x_i

結(jié)果研究者發(fā)現(xiàn),BIG-Bench 使用的大多數(shù)度量中沒有表現(xiàn)出涌現(xiàn)能力的「任務(wù) - 模型系列」配對:在人們偏好的 39 個 BIG-Bench 度量中,至多 5 個展現(xiàn)出了涌現(xiàn)能力(圖 5A)。這 5 個大都是非線性的 / 非連續(xù)的,如精確字符串匹配、多選擇分級、ROUGE-L-Sum。值得注意的是,由于 BIG-Bench 通常使用多項度量來評估模型的任務(wù)表現(xiàn),因此在其它度量下缺乏涌現(xiàn)能力這一現(xiàn)象說明:當使用其它度量來評價模型輸出時,涌現(xiàn)能力并不會出現(xiàn)。

由于涌現(xiàn)分數(shù)僅表明有涌現(xiàn)能力,因此研究者還進一步分析了論文《137 emergent abilities of large language models》中人工標注的「任務(wù) - 度量 - 模型系列」三元組。人工標注的數(shù)據(jù)表明 39 個度量中僅有 4 個表現(xiàn)出了涌現(xiàn)能力(圖 5B),并且它們中的 2 個就占到了所宣稱的涌現(xiàn)能力的 92% 以上(圖 5C)。多選擇分級和精確字符串匹配。多選擇分級是非連續(xù)的,精確字符串匹配是非線性的(在目標長度度量上的變化是近乎幾何式的)??傮w而言,這些結(jié)果說明涌現(xiàn)能力僅出現(xiàn)在非常少量的非線性和 / 或非連續(xù)度量上。

圖 5:僅有少數(shù)度量會出現(xiàn)涌現(xiàn)能力。(A) 在人們偏好的 39 個 BIG-Bench 度量中,至多只有 5 個度量上可能出現(xiàn)了涌現(xiàn)能力。(B) 所引論文中人工標注的數(shù)據(jù)表明僅有 4 個人們偏好的度量表現(xiàn)出了涌現(xiàn)能力。(C) 涌現(xiàn)能力中 >92% 都出現(xiàn)在以下兩個度量之一上:多選擇分級和精確字符串匹配。

預(yù)測:如果替代非線性 / 非連續(xù)度量,涌現(xiàn)能力應(yīng)該會被消除

對于第二個預(yù)測,研究者分析了前文所引論文中人工標注的涌現(xiàn)能力。他們關(guān)注的是 LaMDA 系列,因為其輸出可通過 BIG-Bench 獲取,而其它模型系列的輸出無法這樣獲取。在已經(jīng)發(fā)表的 LaMDA 模型中,最小的有 20 億個參數(shù),但 BIG-Bench 中的許多 LaMDA 模型都小很多,而且研究者表示由于無法確定這些更小模型的來源,因此沒有在分析中考慮它們。在分析中,研究者認定了在多選擇分級度量上 LaMDA 在哪些任務(wù)上展現(xiàn)出了涌現(xiàn)能力,然后他們提出了問題:當使用另一個 BIG-Bench 度量 Brier 分數(shù)時,LaMDA 能否在同樣的任務(wù)上展現(xiàn)出涌現(xiàn)能力。Brier 分數(shù)是一套嚴格適當(strictly proper)的評分規(guī)則,其度量的是互斥結(jié)果的預(yù)測;對于一個二元結(jié)果的預(yù)測,Brier 分數(shù)簡化成了結(jié)果及其預(yù)測概率質(zhì)量之間的均方誤差。

研究者發(fā)現(xiàn),當非連續(xù)度量多選擇分級變成連續(xù)度量 Brier 分數(shù)時(圖 6),LaMDA 的涌現(xiàn)能力消失了。這進一步說明涌現(xiàn)能力的成因并非是隨規(guī)模增長而導(dǎo)致的模型行為的本質(zhì)變化,而是對非連續(xù)度量的使用。

圖 6:在任務(wù)和模型系列保持不變的前提下改變 BIG-Bench 度量會導(dǎo)致涌現(xiàn)能力消失。上一行:當使用的是一個非連續(xù)度量(多選擇分級)時,LaMDA 模型系列展現(xiàn)出了涌現(xiàn)能力。下一行:當使用的是一個連續(xù)的 BIG-Bench 度量(Brier 分數(shù))時,LaMDA 模型系列在同樣任務(wù)上不再有涌現(xiàn)能力。

檢驗三:誘導(dǎo) DNN 出現(xiàn)涌現(xiàn)能力

研究者的觀點是可以通過度量的選擇來誘導(dǎo)模型產(chǎn)生涌現(xiàn)能力;為了證明這一點,他們展示了如何讓不同架構(gòu)(全連接、卷積、自注意力)的深度神經(jīng)網(wǎng)絡(luò)產(chǎn)生涌現(xiàn)能力。這里研究者重點關(guān)注的是視覺任務(wù),原因有二。第一,人們現(xiàn)在主要關(guān)注大型語言模型的涌現(xiàn)能力,因為對于視覺模型而言,目前還沒有觀察到模型能力從無突然轉(zhuǎn)變到有的現(xiàn)象。第二,某些視覺任務(wù)用大小適中的網(wǎng)絡(luò)就足以解決,因此研究者可以完整構(gòu)建出跨多個數(shù)量級規(guī)模的模型系列。

卷積網(wǎng)絡(luò)涌現(xiàn)出對 MNIST 手寫數(shù)字的分類能力

研究者首先誘導(dǎo)實現(xiàn) LeNet 卷積神經(jīng)網(wǎng)絡(luò)系列涌現(xiàn)出分類能力,訓(xùn)練數(shù)據(jù)集是 MNIST 手寫數(shù)字數(shù)據(jù)集。這個系列展現(xiàn)出了隨參數(shù)數(shù)量增長,測試準確度平滑提升的現(xiàn)象(圖 7B)。為了模擬有關(guān)涌現(xiàn)的論文中使用的準確度度量,這里使用的是子集準確度(subset accuracy):如果該網(wǎng)絡(luò)從 K 個(獨立的)測試數(shù)據(jù)中正確分類出了 K 個數(shù)據(jù),那么該網(wǎng)絡(luò)的子集準確度為 1,否則為 0?;谶@一準確度定義,在 K 從 1 增長到 5 的設(shè)定中,該模型系列展現(xiàn)出了「涌現(xiàn)」能力,從而能夠正確分類 MNIST 數(shù)字集,尤其是結(jié)合了模型大小的稀疏采樣時(圖 7C)。這個卷積系列的涌現(xiàn)分類能力在定性分析上符合已發(fā)表論文中的涌現(xiàn)能力,比如在 BIG-Bench 的地形測繪任務(wù)上的結(jié)果(圖 7A)。

圖 7:在卷積網(wǎng)絡(luò)中誘導(dǎo)出涌現(xiàn)的 MNIST 分類能力。(A) 一篇已發(fā)表論文中的基于 BIG-Bench 地形測繪任務(wù)的涌現(xiàn)能力。(B) 在 MNIST 上訓(xùn)練的 LeNet 表現(xiàn)出:隨模型參數(shù)數(shù)量增長,測試準確度展現(xiàn)出預(yù)測的、普遍的、S 形的增長。(C) 當把準確度重新定義成從 K 個獨立測試數(shù)據(jù)中正確分類出 K 個時,這個新定義的度量會誘導(dǎo)出一種似乎在預(yù)料之外的變化。

非線性自動編碼器在 CIFAR100 自然圖像集上涌現(xiàn)出重建能力

為了凸顯出研究者所選度量的銳利度是涌現(xiàn)能力的原因,并且為了表明這種銳利度不僅限于準確度等度量,研究者又誘導(dǎo)在 CIFAR100 自然圖像集上訓(xùn)練的淺度(即單隱藏層)非線性自動編碼器涌現(xiàn)出重建圖像輸入的能力。為此,他們刻意定義了一個新的用于衡量模型能力的不連續(xù)度量,該度量為平方重建誤差低于固定閾值 c 的測試數(shù)據(jù)的平均數(shù)量:

其中 I (?) 是一個隨機指示變量,x^n 是自動編碼器對 x_n 的重建。研究者檢視了自動編碼器瓶頸單元的數(shù)量,然后發(fā)現(xiàn)隨模型規(guī)模增長,網(wǎng)絡(luò)的均方重建誤差會表現(xiàn)出平滑的下降趨勢(圖 8B),但如果使用新定義的重建度量,對于選定的 c,這個自動編碼器系列在重建該數(shù)據(jù)集上展現(xiàn)出的能力是銳利的和幾乎不可預(yù)測的(圖 8C),這個結(jié)果在定性分析上符合已發(fā)表論文中的涌現(xiàn)能力,比如 BIG-Bench 中的 Periodic Elements(周期性元素)任務(wù)(圖 8A)。

圖 8:在淺度非線性自動編碼器中誘導(dǎo)出涌現(xiàn)的重建能力。(A) 一篇已發(fā)表論文中的基于 BIG-Bench 周期性元素任務(wù)的涌現(xiàn)能力。(B) 在 CIFAR100 上訓(xùn)練的淺度非線性自動編碼器展現(xiàn)出了平滑下降的均方重建誤差。(C) 使用新定義的重建度量(公式 2)誘導(dǎo)出了不可預(yù)測的變化。

自回歸 Transformer 在 Omniglot 字符集上涌現(xiàn)出了分類能力

接下來是 Transformer 的涌現(xiàn)能力,其使用的是自回歸方法來分類 Omniglot 手寫字符。研究者使用的實驗設(shè)置是類似的:Omniglot 圖像先由卷積層嵌入,然后以 [嵌入圖像,圖像類別標簽] 配對組成序列的方式輸入僅解碼器的 Transformer,而該 Transformer 的訓(xùn)練目標是預(yù)測 Omniglot 類別標簽。研究者是在長度為 L ∈ [1, 5] 的序列上測量圖像分類性能,同樣是通過子集準確度來度量:如果所有 L 圖像都分類正確(圖 9B)則子集準確度為 1,否則為 0。Causal Transformer 在正確分類 Omniglot 手寫字符任務(wù)上似乎展現(xiàn)出了涌現(xiàn)能力(圖 9C),該結(jié)果在定性分析上符合已發(fā)表論文中的涌現(xiàn)能力,比如大規(guī)模多任務(wù)語言理解(圖 9A)。

圖 9:在自回歸 Transformer 中誘導(dǎo)出涌現(xiàn)的分類能力。(A) 一篇已發(fā)表論文中基于 MMLU 基準的涌現(xiàn)能力。(B) 隨模型參數(shù)增多,使用自回歸方法來分類 Omniglot 手寫數(shù)字的 Transformer 的測試準確度也表現(xiàn)為增長。(C) 當將準確度重新定義為正確分類序列中的所有圖像時,該指標更難被預(yù)測,這似乎說明誘導(dǎo)出了涌現(xiàn)能力。

關(guān)鍵詞:

你可能會喜歡: