快訊 來源:智東西 2025-10-27 19:25:49
智東西編譯 王欣逸編輯 程茜
智東西10月27日消息,10月15日,德國農工大學、德克薩斯大學奧斯汀分校和普渡大學的研究團隊在arXiv上發表了一篇論文,提出并測試了“LLM腦腐假說”(LLM Brain Rot Hypothesis)。研究顯示,經垃圾數據訓練后,Llama 8B模型的推理能力下降了23.6%,自戀和精神病態的水平上升了兩倍多。
(資料圖)
“腦腐”(brain rot)指人們長時間暴露于碎片化信息下可能導致腦功能損傷。研究人員提出,和人類“腦腐”現象相對應,大模型接觸大量垃圾網絡文本可能會出現“大腦退化”、認知能力持續下降的現象。
論文地址:https://llm-brain-rot.github.io
一、海量垃圾數據,讓大模型們認知退化
在研究過程中,研究人員在社交平臺X的語料庫上進行了受控實驗,從1億條的帖子中確定了兩種類型的垃圾數據,并采用兩個正交操作化方法構建了垃圾數據集M1、M2和反向對照數據集。
M1:參與度——衡量帖子的受歡迎程度和簡短程度。點贊、轉發和評論量高的內容,特別是淺薄且吸引人的內容,這些被標記為垃圾數據。同時,篇幅更長、傳播性不強的帖子則成為對照組。
M2:語義質量——評估文本的聳人聽聞程度和膚淺程度。帶引誘性質的語言(如“哇”、“看”、“僅限今天”)或夸大其詞的帖子被標記為垃圾數據。同時,基于事實、有教育性或說理性的帖子被選擇作為對照組。
研究人員將這兩類垃圾數據混合高質量數據,對Llama3-8B、Qwen-2.5-7B/0.5B、Qwen3-4B這四個已經預訓練并經過微調的大模型進行訓練,并觀測其四個方面的認知能力:推理能力、長期記憶能力、倫理道德規范和表現出的個性風格。
通過測量4個大模型的Hedges’g(效應量)可得,垃圾數據明顯影響了大模型的推理能力和長時間記憶能力(Hedges’g>0.3)。
在其他訓練中,垃圾數據對大模型對影響還存在更復雜的情況。
不同比例的垃圾數據不僅會讓大模型在思維上變得更笨,還會導致模型“個性”的負面指標發生變化。例如,Llama 8B模型表現出了明顯更高的自戀水平,在精神病態指標上還從幾乎沒有的數值增長到了極高的行為發生率。
此外,Llama 8B模型使用垃圾數據和對照數據各占50%的混合數據進行訓練,在道德規范、高開放性等基準訓練中產生的分數比“全垃圾”或“全對照”訓練數據都要高。
從圖表結果可知,M1和M2這兩種干預的效果出現了分歧,這意味著參與度(M1)并非語義質量(M2)的代理指標,而是代表了不同維度的數據質量。
在劑量反應測試中,參與度(M1)干預對推理和長上下文能力的影響比語義質量(M2)干預更為顯著和漸進,即簡短、高互動的內容對AI的負面影響可能比低質量內容的更大。
二、患上“腦腐”的大模型,幾乎難以恢復
研究人員還聚焦ARC-Challenge(常識推理)中的推理失敗案例,分析不同的失敗模式。
他們識別出五種基本的失敗模式,分別是:無思考、無計劃、計劃跳步、邏輯錯誤、事實錯誤,其中無思考占比最高,且大多數失敗與“思維跳躍”有關,例如,模型無法生成中間推理步驟。
除此之外,研究人員還試圖探究腦腐造成的認知影響是否可以恢復。
研究表明,即使在“腦腐”后進行大量的指令微調或者利用高質量數據模型進行再訓練,模型仍會受垃圾數據揮之不去的影響。一旦模型的性能開始下降,即使想要恢復原有性能,也只能是實現部分的恢復。
因此,為大模型抓取海量互聯網數據不一定是件好事。
結語:AI開發者需重新審視數據策略,警惕大模型“腦腐”
研究人員指出,過度依賴互聯網數據可能會導致大模型預訓練受到污染,這也意味著,人們應當重新審視當前從互聯網收集數據的方式以及持續的預訓練實踐。
除此之外,當下的互聯網上越來越多的內容由AI生成,如果用這些內容來訓練模型,可能會導致“模型崩潰”。
研究人員建議:AI公司需要關注訓練大模型的數據質量,而非僅僅囤積海量數據。此外,他們可能還需要對模型進行“認知健康檢查”。
來源:Ars Technica、arXiv
免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據。
下一篇:最后一頁