波多野结衣在线网站_性欧美超级视频_欧美日韩一区三区四区_亚洲成人免费视频_亚洲一区二区综合_www.av精品_国产精品国产一区_午夜精品久久久久久久久久蜜桃_免费理论片在线观看播放老_婷婷国产在线综合

首頁(yè) 資訊 國(guó)內(nèi) 聚焦 教育 關(guān)注 熱點(diǎn) 要聞 民生1+1 國(guó)內(nèi)

爆火的“GPT-4 MIT本科數(shù)學(xué)滿分”論文作弊,數(shù)據(jù)集本身有問(wèn)題 全球熱議

來(lái)源:騰訊網(wǎng)    發(fā)布時(shí)間:2023-06-18 14:17:31

機(jī)器之心報(bào)道

編輯:蛋醬


(相關(guān)資料圖)

結(jié)論不應(yīng)該如此被夸大。

這兩天,一篇關(guān)于 GPT-4 滿分通過(guò) MIT EECS 和數(shù)學(xué)本科考試的論文在推特上瘋傳。

論文地址:https://arxiv.org/pdf/2306.08997.pdf

簡(jiǎn)單概括,一個(gè)來(lái)自 MIT 的研究團(tuán)隊(duì)從自己學(xué)校的數(shù)學(xué)、電氣工程和計(jì)算機(jī)科學(xué) (EECS) 專業(yè)的課程問(wèn)題、期中考試和期末考試中,整理出了一個(gè)包含 4550 個(gè)問(wèn)題和解決方案的綜合數(shù)據(jù)集。

然后,研究團(tuán)隊(duì)讓各種大語(yǔ)言模型去完成這個(gè)數(shù)據(jù)集的題目,結(jié)果太嚇人:GPT-3.5 能做對(duì) 1/3,GPT-4 幾乎滿分通過(guò)。

論文作者表示,提升模型表現(xiàn)主要靠「四件套」:Few-shot learning、CoT、Self-critique、Expert。

就像上表中所示,加持 GPT-4 的手法越多,模型的答題正確率就越高。原始的 GPT-4 本來(lái)就能拿到 90% 的正確率得分,一番運(yùn)作之后,甚至直接拿到滿分。

但大部分討論得很激烈的網(wǎng)友可能沒(méi)注意到,這個(gè)分?jǐn)?shù)本身就是用 GPT-4 打的……

三位同樣來(lái)自 MIT 的學(xué)生第一時(shí)間發(fā)現(xiàn)了這篇論文,作為險(xiǎn)些被 GPT-4 趕超的群體,他們想立即領(lǐng)會(huì)一下爆款論文的方法論。

研究了一小時(shí)后,他們對(duì)該論文的方法產(chǎn)生了懷疑。

兩小時(shí)后,他們意識(shí)到:數(shù)據(jù)集本身有問(wèn)題。

盡管原論文的作者宣稱已手動(dòng)審查了發(fā)布的數(shù)據(jù)集質(zhì)量,但三人發(fā)現(xiàn),有明顯的跡象表明,測(cè)試數(shù)據(jù)集的很大一部分被污染了。

也就是說(shuō),模型就像一個(gè)學(xué)生在考試前被告知了答案,這是赤裸裸的「作弊」。

產(chǎn)生質(zhì)疑后,他們立即著手在數(shù)據(jù)集上完成了零樣本 GPT-4 的運(yùn)行,并對(duì)數(shù)據(jù)的前 30% 進(jìn)行了手動(dòng)評(píng)分,結(jié)果與原論文相差甚遠(yuǎn),應(yīng)該說(shuō)是一個(gè)天上、一個(gè)地下。

「作為麻省理工學(xué)院的本科生,至少根據(jù)我們的經(jīng)驗(yàn),這個(gè)測(cè)試集并不能準(zhǔn)確地代表在麻省理工學(xué)院獲得 EECS 學(xué)位所需的理解廣度和深度。」三人在博客中這么寫道。

最新進(jìn)展:零樣本 GPT-4 的準(zhǔn)確率能達(dá)到 62.5% 了,但還是和論文里宣稱的 90% 差很多。

三人還質(zhì)疑了「過(guò)度宣傳」的風(fēng)潮:「這些論文通常在任何合法的同行評(píng)審之前就被上傳到 Arxiv,并在 Twitter 上廣泛分享。在這種情況下,可能會(huì)傳播不良信息,并為未來(lái)的工作樹立一個(gè)糟糕的先例。」

「深度學(xué)習(xí)」斗士 Gary Marcus 也不出意料地聲援了這波質(zhì)疑:

同時(shí),三人也在博客中指出一點(diǎn):《Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models》論文上列出的幾個(gè)作者都是本科生研究人員,讓這些人對(duì)工作中出現(xiàn)的任何失誤負(fù)責(zé)是不合適的。相反,責(zé)任應(yīng)該在指導(dǎo)作者身上 —— 他們才是被期望確保工作符合其領(lǐng)域內(nèi)公共學(xué)術(shù)標(biāo)準(zhǔn)的人。

接下來(lái)讓我們看下,這篇「爆火」論文都有哪些問(wèn)題。

數(shù)據(jù)集到底有什么問(wèn)題?

首先,從原論文中得知,研究者收集的數(shù)據(jù)集包含獲得 MIT 學(xué)位考試所需的 30 門數(shù)學(xué)和 EECS 課程的 4550 個(gè)問(wèn)題和相應(yīng)的解決方案,涵蓋核心課程和選修課程。

論文中寫道:「在沒(méi)有圖像和有解決方案的問(wèn)題中隨機(jī)選擇了 288 個(gè)問(wèn)題的測(cè)試集。」

這個(gè)數(shù)據(jù)集(不包括用于微調(diào)開源 LLM 的訓(xùn)練集)隨著論文的公開也被發(fā)布到 GitHub 上,同時(shí)發(fā)布的還有用于生成報(bào)告的測(cè)試性能的代碼。然而,作者 Drori 教授在最近的一次提交中已經(jīng)將其刪除。

經(jīng)過(guò)檢查、對(duì)比,三人確信這個(gè)被刪掉的文件代表了論文中分析的測(cè)試集,因?yàn)樵u(píng)估代碼中的所有數(shù)據(jù)的文件路徑都指向它,沒(méi)有提供任何修改其內(nèi)容的代碼,而且它在最初發(fā)布的 GitHub 倉(cāng)庫(kù)中是可用的。此外,該文件滿足了論文中規(guī)定的所有模式要求(行數(shù)等)。這些證據(jù)似乎非常有力地支持了下面的所有主張,

「但我們要承認(rèn),這個(gè)文件有可能被換成了一個(gè)用于測(cè)試的不同文件。如果是這樣的話,我們認(rèn)為證明的責(zé)任在于作者公開發(fā)布這個(gè)數(shù)據(jù)和用它做的所有分析。」

那么,被掩蓋的問(wèn)題究竟是什么呢?三人給出了自己的分析。

無(wú)法解決的問(wèn)題(約占測(cè)試集的 4%)

鑒于原論文表示,任何形式的 GPT-4 都能在測(cè)試集上產(chǎn)生一個(gè)完美的分?jǐn)?shù),三人開始檢查個(gè)別數(shù)據(jù)點(diǎn)。他們很快就發(fā)現(xiàn),根本不可能有滿分,因?yàn)閿?shù)據(jù)集中至少有 10 個(gè)問(wèn)題是無(wú)法用所提供的信息解決的,另外幾個(gè)問(wèn)題在這種情況下根本就不是有效的問(wèn)題。

像這種「有問(wèn)題的問(wèn)題」,至少占據(jù)了測(cè)試集的 4%。

在一個(gè)擴(kuò)展的 excel 文檔里,三人對(duì)已經(jīng)發(fā)現(xiàn)有問(wèn)題的數(shù)據(jù)集例子進(jìn)行了注釋。「紅色」代表用提供的信息無(wú)法解決的問(wèn)題,「黃色」代表一部分不太合理的問(wèn)題。

頁(yè)面地址:https://docs.google.com/spreadsheets/d/1FZ58hu-lZR-e70WP3ZPNjp9EK_4RgrQvQfsvjthQh_Y/edit?usp=sharing

重復(fù)的問(wèn)題(約占測(cè)試集的 5%)

使用文本相似性檢測(cè),三人發(fā)現(xiàn)有 14 個(gè)問(wèn)題(7 對(duì))在 288 個(gè)問(wèn)題的測(cè)試集中是重復(fù)的,在這些情況下,問(wèn)題串之間的唯一區(qū)別是極小的字符級(jí)噪音,甚至完全相同。

鑒于這些無(wú)法解決的問(wèn)題,GPT-4 能夠通過(guò)任何方式獲得 100% 的準(zhǔn)確率,也是難以置信。要么是在某個(gè)階段出現(xiàn)了答案泄漏到 prompt 中,要么是問(wèn)題沒(méi)有被正確打分。

這些初步的發(fā)現(xiàn)促使他們從少樣本示例開始進(jìn)一步調(diào)查(如果模型在零樣本正確率方面失敗的話),最終發(fā)現(xiàn),既有解題信息的泄露,也有用于對(duì)模型輸出進(jìn)行分級(jí)的方法問(wèn)題。具體情況如下:

少樣本示例中的信息泄露

值得注意的是,原論文中還提到了「少樣本示例」這個(gè)事。

簡(jiǎn)而言之,論文對(duì) OpenAI 嵌入的數(shù)據(jù)集內(nèi)的類似問(wèn)題進(jìn)行余弦相似度搜索,并將這些問(wèn)題和解決方案作為額外的上下文納入模型的 prompt,幫助模型解決問(wèn)題。

這個(gè)方法本身是沒(méi)問(wèn)題的,只要這些示例與有關(guān)問(wèn)題有足夠的差異,且避免暴露不公平的信息。

只是隨機(jī)掃描已發(fā)布的測(cè)試數(shù)據(jù)集時(shí),三人注意到一些奇怪的事情:許多提供給模型的「少樣本示例」與問(wèn)題本身幾乎一字不差。

為了進(jìn)一步了解這一點(diǎn),他們寫了一個(gè)簡(jiǎn)單的腳本,查看了所提供的幾個(gè)示例的問(wèn)題陳述和所列出的問(wèn)題之間的重疊情況,并繪出了直方圖:

許多提供的少樣本與問(wèn)題本身幾乎相同,這意味著模型得到的是問(wèn)題的答案或與問(wèn)題非常相似的問(wèn)題。通常情況下,這來(lái)自于大量的共享背景的多環(huán)節(jié)問(wèn)題的重復(fù)。

他們認(rèn)為,為了正確評(píng)估 GPT 的解題能力,多環(huán)節(jié)問(wèn)題的其他部分應(yīng)該被完全排除在某一問(wèn)題的少樣本示例之外。事實(shí)上,他們發(fā)現(xiàn)這些多環(huán)節(jié)問(wèn)題的解決方案,往往直接提到或給出了模型被要求解決的另一部分問(wèn)題的答案。

不僅如此,在對(duì)這些數(shù)據(jù)的挖掘中,他們還發(fā)現(xiàn)了整個(gè)問(wèn)題被重復(fù)的樣本。比如:

在這兩種情況下,答案是完全相同的。很難說(shuō)不算信息泄漏了。

GPT-4 自動(dòng)打分,有問(wèn)題

此外,三人還在原論文開源的打分機(jī)制中發(fā)現(xiàn)了問(wèn)題:

在代碼中,能看出流程上處理分級(jí)存在嚴(yán)重的問(wèn)題:論文是用 GPT-4 去評(píng)估檢查的,包括 a)原始問(wèn)題,b)解決方案,c)GPT 自己的答案,作為分級(jí) prompt 中的參數(shù)。

在更多的技術(shù)領(lǐng)域,GPT 更有可能出現(xiàn)隱性誤解,這種自動(dòng)評(píng)分更有可能出現(xiàn)「自我欺騙」的結(jié)果。

此外,雖然 prompt 級(jí)聯(lián)是最近許多 GPT 論文中常見的技術(shù),但這里有大量數(shù)據(jù)泄漏的可能性。每一級(jí)不僅提供基于 ground truth 的二元信息,而且還在繼續(xù) prompt,直到達(dá)到正確答案。

盡管這些創(chuàng)建的 prompt 并沒(méi)有看到實(shí)際的答案,但重新 prompt 直到達(dá)到正確答案的形式已經(jīng)足夠了,尤其是在占測(cè)試集 16% 的多選題中,無(wú)限次的嘗試(幾乎)保證了正確答案一定會(huì)出現(xiàn)。

這就好比有人拿著答題紙,告訴正在考試的學(xué)生答得對(duì)不對(duì),一直提示到學(xué)生得到正確答案。

總結(jié)

在博客的最后,三位這樣寫道:

這篇論文道出了最近人工智能領(lǐng)域研究的一個(gè)更大趨勢(shì)。隨著該領(lǐng)域的進(jìn)展越來(lái)越快,新發(fā)現(xiàn)的時(shí)間節(jié)奏似乎在縮短,這往往伴隨著捷徑。一個(gè)特別令人擔(dān)憂的趨勢(shì)是使用像 GPT-4 這樣基于語(yǔ)言的模型來(lái)評(píng)估一個(gè)模型的準(zhǔn)確性的技術(shù)。

雖然是一個(gè)有用的工具,但它的結(jié)論絕不應(yīng)該被夸大,也不應(yīng)該被當(dāng)作 ground truth。最近的工作表明,如果沒(méi)有準(zhǔn)確的 ground truth 信息,GPT-4 評(píng)估器就不能可靠地用于驗(yàn)證。至少,應(yīng)該選擇一個(gè)隨機(jī)的數(shù)據(jù)集子集,將 GPT-4 的性能與人類的評(píng)估進(jìn)行比較。語(yǔ)言模型還不能被當(dāng)作產(chǎn)生 ground truth 的神諭。

此外,在使用數(shù)據(jù)之前,無(wú)論是用于訓(xùn)練、推理、基準(zhǔn)測(cè)試還是其他方面,重新評(píng)估每一個(gè)數(shù)據(jù)點(diǎn)并進(jìn)行基本的檢查是極其重要的。鑒于有關(guān)數(shù)據(jù)集的規(guī)模較小,簡(jiǎn)單的人工驗(yàn)證很容易在工作范圍內(nèi)完成。?

我們的批評(píng)主要是針對(duì)這項(xiàng)研究的方法和嚴(yán)謹(jǐn)性,而不是針對(duì)其內(nèi)容。我們對(duì)大型語(yǔ)言模型實(shí)際解決麻省理工學(xué)院課程的能力沒(méi)有任何意見,只是認(rèn)為本文未能以科學(xué)嚴(yán)謹(jǐn)?shù)姆绞阶C明這一點(diǎn)。

關(guān)鍵詞:

頻道精選

首頁(yè) | 城市快報(bào) | 國(guó)內(nèi)資訊 | 教育播報(bào) | 在線訪談 | 本網(wǎng)原創(chuàng) | 娛樂(lè)看點(diǎn)

Copyright @2008-2018 經(jīng)貿(mào)網(wǎng) 版權(quán)所有 皖I(lǐng)CP備2022009963號(hào)-11
本站點(diǎn)信息未經(jīng)允許不得復(fù)制或鏡像 聯(lián)系郵箱:39 60 29 14 2 @qq.com

91麻豆精品国产91久久久久久| 91精品国产一区二区| 亚洲jizzjizz妇女| 久久精品视频观看| 国产成人免费高清| 免费观看亚洲| 国产精品嫩草99a| а√资源新版在线天堂| 成人在线视频一区| 最近中文字幕免费mv2018在线| 亚洲三级在线观看| 中文一区在线| 欧美不卡高清一区二区三区| 欧美日韩色一区| 国产日韩欧美一区二区三区综合| 成人永久在线| 一本一道综合狠狠老| 国产图片一区| 亚洲成人av一区二区三区| 国内精品偷拍| 欧美成人一区二区三区片免费| 午夜在线精品| 色丁香久综合在线久综合在线观看| 麻豆影视国产在线观看| 99re国产精品| 日韩一级片网址| 红杏视频成人| 影视先锋av资源站| 久久久综合九色合综国产精品| 麻豆网站免费在线观看| 久久久综合激的五月天| www.久久久.com| heyzo在线观看| 国产成人精品aa毛片| 欧美片在线播放| 亚洲欧美日韩国产一区二区| 91精品久久久久久粉嫩| 成人毛片老司机大片| 日韩在线伦理| 狠狠躁天天躁日日躁欧美| 日本道不卡免费一区| 日日摸日日添日日躁av| 不卡一区视频| 亚洲成a人片在线观看中文| 天堂久久一区| 亚洲午夜在线视频| 成人av影音| eeuss影院在线观看| 亚洲视频免费看| 国产成人福利av| 天天综合入口| 久久亚洲精精品中文字幕早川悠里| 欧美伊人久久| 99精品视频在线观看播放| 亚洲精华一区二区三区| 一区二区三区四区视频免费观看 | 国产精品影视| 91在线观看免费视频| 日韩精品四区| 黄色免费网站在线| 日韩欧美999| 国产精品综合一区二区| 精品国产鲁一鲁****| 在线观看av中文| 欧美日韩精品二区| 超碰cao国产精品一区二区| 狠狠色噜噜狠狠狠狠97| 欧美一区二区三区久久精品茉莉花| 免费看成年人视频在线观看| 99精品国产视频| 国产一区欧美| 大香伊人久久精品一区二区| 国产永久免费高清在线观看视频| 亚洲欧美欧美一区二区三区| 风间由美一区二区三区在线观看| 日本一区福利在线| 欧美18hd| 一级片免费在线观看| 欧美一激情一区二区三区| 激情久久五月天| 亚洲成人高清| wwwxxx在线观看| 欧美少妇一区二区| 久久综合色婷婷| 欧美天堂在线| 又黄又爽在线观看| 色综合天天综合狠狠| 精品国产91久久久久久老师| 亚洲精品videosex极品| 国内外成人在线视频| 天天综合网91| 精品国产一区二区三区小蝌蚪 | 国产校园另类小说区| heyzo一本久久综合| 亚洲激情社区| 性一交一乱一区二区洋洋av| 日本最新不卡在线| 中文字幕av一区 二区| 亚洲一区二区三区美女| 欧美中文字幕一二三区视频| 欧美电影精品一区二区| 无套内精的网站| 三上悠亚在线资源| 欧美精选在线播放| 欧美日韩在线视频一区| 久久综合久久综合亚洲| 久久综合久久鬼色中文字| 国产一区二区三区av电影| 精品一区二区三区在线视频| 免费亚洲视频| 久久国产精品成人免费观看的软件| 成人在线网站| 肉肉视频在线观看| 久久精品国产福利| 欧美91在线| 丝袜久久网站| 国产精品亚洲综合在线观看| 亚洲图色一区二区三区| 日韩深夜福利| 亚洲精品日产| 日韩a在线观看| 亚洲精品永久免费视频| 日韩中文字幕无砖| 成人情趣视频网站| 成人激情av网| 亚洲一区二区成人| 欧美日韩中文字幕在线视频| 老司机aⅴ毛片免费观看| 超碰在线观看免费| 久久精品国产亚洲5555| 亚洲区国产区| 在线日韩中文| 国产一区在线不卡| 精品一区二区三区久久久| 成人午夜电影久久影院| 懂色av一区二区三区免费观看| 久久精品国产精品青草| 2欧美一区二区三区在线观看视频 337p粉嫩大胆噜噜噜噜噜91av | 亚洲人成亚洲人成在线观看图片| 99国产精品久久久久久久久久| 美女任你摸久久| 日韩电影在线一区| 久久精品国产精品青草| 国产成人综合自拍| 午夜电影一区二区三区| 欧美一区二区久久久| 日本在线三级| 久热国产在线| 一区中文字幕电影| 亚洲天堂成人| 日韩免费电影| 欧美激情图区| 欧美影院午夜播放| 日本一区二区三区四区| 久久午夜激情| 美女扒开腿让男人桶爽久久动漫| 97超碰资源站在线观看| 国产性一级片| 在线免费精品视频| 国产精品色在线| 久久福利资源站| 91精品电影| 国产欧美三级电影| 天堂а√在线最新版中文在线| 青青草视频免费在线观看| 日韩欧美你懂的| 午夜不卡av免费| 国产片一区二区| 国产一区二区0| 亚洲区第一页| 日韩片欧美片| 亚洲亚洲一区二区三区| 2021中文字幕在线| 国产视频网址在线| 资源av在线| 欧美性猛片xxxx免费看久爱| 欧美国产综合色视频| 国产成人免费视频| 美女日韩在线中文字幕| 欧美激情成人| 精品国产一区二区三区不卡蜜臂| 刘亦菲一区二区三区免费看| 超碰公开在线| 韩国福利在线| 日韩写真在线| 蜜桃特黄a∨片免费观看| 日本二三区不卡| 亚洲一区二区三区精品在线| 欧美—级在线免费片| 成人av手机在线观看| 久久精品999| 久久一二三区| 激情综合视频| 中文字幕一区二区三三| 精品一区二区三区中文字幕老牛 | 国产精品国产三级国产普通话三级 | 老汉色老汉首页av亚洲| 亚洲啊v在线免费视频| 欧美视频在线视频精品| 播放一区二区|