用AI數(shù)據(jù)訓練AI效果怎樣?國際最新研究稱可能最終導致崩潰
中新網(wǎng)北京7月27日電 (記者 孫自法)國際學術(shù)期刊《自然》最新發(fā)表一篇計算機科學論文指出,用人工智能(AI)生成的數(shù)據(jù)集訓練未來幾代機器學習模型可能會污染它們的輸出,這個概念稱為“模型崩潰”。
該研究顯示,原始內(nèi)容會在AI數(shù)代內(nèi)變成不相關(guān)的胡言亂語,顯示出使用可靠數(shù)據(jù)訓練AI模型的重要性。
生成式AI工具越來越受歡迎,如大語言模型等,這類工具主要用人類生成的輸入進行訓練。不過,隨著這些AI模型在互聯(lián)網(wǎng)不斷壯大,計算機生成內(nèi)容可能會以遞歸循環(huán)的形式被用于訓練其他AI模型或其自身。
論文第一作者兼共同通訊作者、英國牛津大學Ilia Shumailov和同事及合作者一起,用數(shù)學模型演示了AI模型可能會如何出現(xiàn)模型崩潰。他們證明了一個AI可能會忽略訓練數(shù)據(jù)中的某些輸出(如不太常見的文本),導致其只用一部分數(shù)據(jù)集來自我訓練。
隨后,論文作者還研究了AI模型會如何應(yīng)對主要用人工智能生成的訓練數(shù)據(jù)集。他們發(fā)現(xiàn),給模型輸入AI生成的數(shù)據(jù)會減弱今后幾代模型的學習能力,最終導致模型崩潰。他們測試的幾乎所有遞歸訓練語言模型都容易出現(xiàn)重復(fù)短語。比如,一個用中世紀建筑文本作為原始輸入的測試到第九代的輸出已經(jīng)是一串野兔的名字。
論文作者指出,為了讓人工智能成功使用其自身輸出進行訓練,本次研究認為用AI生成數(shù)據(jù)訓練一個模型并非不可能,但必須對數(shù)據(jù)進行嚴格過濾。與此同時,依賴人類生成內(nèi)容的科技公司或許能比競爭對手訓練出更高效的AI模型。(完)
本網(wǎng)站所刊載信息,不代表中新經(jīng)緯觀點。 刊用本網(wǎng)站稿件,務(wù)經(jīng)書面授權(quán)。
未經(jīng)授權(quán)禁止轉(zhuǎn)載、摘編、復(fù)制及建立鏡像,違者將依法追究法律責任。
[京B2-20230170] [京ICP備17012796號-1]
違法和不良信息舉報電話:18513525309 報料郵箱(可文字、音視頻):zhongxinjingwei@chinanews.com.cn
Copyright ©2017-2024 jwview.com. All Rights Reserved
北京中新經(jīng)聞信息科技有限公司