鑫昌軟件園鑫昌秘籍 → Meta LIama 4 重奪開源第一:DeepSeek 同等代碼能力但參數減半,一張 H100 就能跑,還有兩萬億參數超大杯

Meta LIama 4 重奪開源第一:DeepSeek 同等代碼能力但參數減半,一張 H100 就能跑,還有兩萬億參數超大杯

2025-04-07 11:33:52      小編:鑫昌軟件園      

AI 不過周末,硅谷也是如此。大周日的,Llama 家族上新,一群 LIama 4 就這么突然發布了。

這是 Meta 首個基于 MoE 架構模型系列,目前共有三個款:

Llama 4 Scout、Llama 4 Maverick、Llama 4 Behemoth。

最后一個尚未推出,只是預告,但 Meta 已經毫不避諱地稱前兩者是“我們迄今為止最先進的型號,也是同類產品中最好的多模態型號”。

詳細來看一些關鍵詞 ——

    Llama 4 Scout,16 位專家的 170 億激活參數的多模態模型,單個 H100 GPU 可運行,同類 SOTA,并擁有 10M 上下文窗口。

    Llama 4 Maverick,128 位專家的 170 億激活參數多模態模型,擊敗 GPT-4o 和 Gemini 2.0 Flash,與 DeepSeek-V3 同等代碼能力參數只要一半,主打與 DeepSeek 一樣的性價比,單個 H100 主機即可運行。

    Llama 4 Behemoth:2 萬億參數的超大超強模型,以上二者都由這個模型蒸餾而來;目前還在訓練中;多個基準測試超過 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。

    Meta 官推激情表示,這些 Llama 4 模型標志著 Llama 生態系統新時代 —— 原生多模態 AI 創新的開始。

    與此同時,大模型競技場排名迎來一輪更新。

    此次發布的 Llama 4 Maverick,在困難提示、編碼、數學、創意寫作方面并列第一;得分 1417,不僅大大超越了此前 Meta 自家的 Llama-3-405B(提升了 149 分),還成為史上第 4 個突破 1400 分的模型;。

    而且跑分明確 —— 超越 DeepSeek-V3,實現亮相即登頂,直接成為排名第一的開源模型。

    谷歌 CEO 劈柴哥第一時間發來賀電:

    AI 世界,從不平淡!

    恭喜呀!前進吧,Llama 4 團隊!

    中杯、大杯首批亮相

    了解了 Llama 4 家族全體成員后,我們先來見識一下首批發布的 2 個模型:

      中杯

      :Llama 4 Scout(偵查兵 Llama 4)。

      大杯

      :Llama 4 Maverick(特立獨行的 Llama 4)。

      兩者均已能在 Llama 官網和抱抱臉上下載。

      我們抓取并提煉出這倆模型的一些特點:

      Meta 首批 MoE 架構模型

      這是 Llama 系列,第一批使用 MoE(混合專家模型)構建的模型。

      中杯 Llama 4 Scout 有 17B 激活參數,擁有 16 個專家模型。

      大杯 Llama 4 Maverick 擁有 17B 激活參數,擁有 128 個專家模型。

      至于還沒和大家正式見面的超大杯 Llama 4 Maverick,擁有 288B 激活參數,擁有 16 個專家模型。

      非常長 ———— 的上下文

      Llama 4 系列,均具有很長的上下文窗口。

      這一點主要體現在 Meta 公布的中杯 Llama 4 Scout 的詳細數據里:

      Llama 4 Scout 提供了行業領先的 100 萬上下文窗口。

      經過預訓練和后訓練,Llama 4 Scout 長度為 256K,這使基本模型具有高級長度泛化能力。

      這個配置,讓它在廣泛的測評集上,比 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1 的結果更優秀。

      它在「大海撈針」測試上的表現如下:

      結果如下:

      那么之前的 Llama 系列模型的上下文窗口情況呢?

        Llama 1,上下文窗口為 2k;

        Llama 2,上下文窗口默認為 4k,但可以通過微調等可以拓展到 32k;

        Llama 3,上下文窗口是 8k,后來 Llama 3.1 的長文本能力拓展到了 128k。

        Meta 官方博客中是這么寫的:

        (Llama 4 的長上下文)開辟了一個充滿可能性的世界,包括多文檔摘要、解析廣泛的用戶活動以執行個性化任務以及對龐大的代碼庫進行推理。

        原生多模態設計

        Llama 4 系列,開啟了 Llama 的原生多模態時代。

        而已經公開對外的中杯和大杯,被官方稱為“輕量級原生多模態模型”。

        給用戶的體驗就是,上傳一張圖片,可以直接在對話框中提問關于這張圖片的各種問題。

        不是我說,Llama 終于長眼睛了!?。?/p>

        上面這張動圖展示的僅僅是最基礎的,“為難”程都升級也不怕。

        比如喂它一張鋪滿工具的圖片,問它哪些適合來干某個活。

        它會很快地把適用的工具圈出來:

        要認顏色 + 認小鳥,也沒在怕的:

        中杯和大杯都在官方介紹中被打上了“世界上同類產品中最好的多模態模型”的 tag。

        來看和 Llama 系列前作、Gemma 3、Mistral 3.1、Gemini 2.0 Flash-Lite 的對比結果 ——

        可以看到,在各個測評集上的表現,Llama 4 Scout 樣樣都是新 SOTA。

        語言天賦 Max

        經過了預訓練和微調的 Llama 4,掌握全球 12 種語言,以此“方便全球開發者的部署”。

        比 DeepSeek 更狠的“AI 模型拼多多”

        一定要跟大家分享的一個細節,Meta 這次在模型 API 價格方面,下狠手了!

        先說結果:

        系列超大杯 Llama 4 Maverick,不僅超越了同類型號其它模型,價格還非常之美麗。

        更直觀地來看這張表格,真的狠過 DeepSeek—— 從性能到價格各個緯度。

        要知道,超大杯 Llama 4 Behemoth 屬于是 Llama 4 系列的教師模型。

        如果說中杯和大杯是輕量級選手,這位就是絕對的重磅玩家。

        288B 激活參數,16 個專家模型。

        最重要的是,它的總參數量高達 2000B!

        在數學、多語言和圖像基準測試中,它提供了非推理模型的最先進性能。

        當“最牛”和“最便宜”擺在一起的時候,試問哪位開發者會不心動?(doge)

        訓練細節

        用他們自己的話來說,Llama 系列是進行了徹底的重新設計。目前第一組 LIama 4 系列模型,他們也公布了具體的訓練細節。

        預訓練

        他們首次使用混合專家 MoE 架構,在 MoE 架構中,單個 token 僅激活總參數的一小部分。MoE 架構在訓練和推理方面具有更高的計算效率,固定訓練 FLOP 成本情況下質量更高。

        比如,Llama 4Maverick 模型有 17B 個激活參數和 400B 個總參數。他們使用交替的密集層和混合專家 (MoE) 層來提高推理效率。

        MoE 層使用 128 位路由(Routed)專家和一位共享專家。每個令牌都會發送給共享專家以及 128 位路由(Routed)專家之一。

        因此,雖然所有參數都存儲在內存中,但在為這些模型提供服務時,只有總參數的子集被激活。

        這通過降低模型服務成本和延遲來提高推理效率 ——Llama 4 Maverick 可以在單個 H100 DGX 主機上運行,以便于部署,也可以通過分布式推理實現最高效率。

        他們早期融合,將文本和視覺 token 無縫集成到統一模型中。

        他們開發了一種新的訓練技術:MetaP,可以設置關鍵模型超參數,比如每層的學習率和初始化尺度。

        結果發現,所選的超參數能在批量大小、模型寬度、深度和訓練 token 的不同值之間很好地擴展和泛化 ——

        Llama 4 通過在 200 種語言(包括 100 多種語言,每種語言有超過 10 億個詞庫)上進行預訓練,實現了開源微調工作,多語言詞庫總量是 Llama 3 的 10 倍。

        此外,他們使用 FP8 精度進行高效模型訓練,同時不犧牲質量并確保模型 FLOPs 的高利用率 — 在使用 FP8 和 32K GPU 預訓練 Llama 4 Behemoth 模型時,結果他們實現了 390TFLOPs / GPU。

        用于訓練的整體混合數據包括 30 多萬億個 token,是 Llama 3 預訓練混合物的兩倍多,其中包括各種文本、圖像和視頻數據集。

        在所謂的“中期訓練”中繼續訓練模型,通過新的訓練方法(包括使用專業數據集進行長上下文擴展)來提高模型的核心功能。

        后訓練

        后訓練階段,他們提出一個課程策略,與單個模式專家模型相比,該策略不會犧牲性能。

        在 Llama 4 中,采用了一種不同的方法來改造我們的后期訓練管道:

        輕量級監督微調 (SFT)> 在線強化學習 (RL)> 輕量級直接偏好優化 (DPO)。

        一個關鍵的教訓是,SFT 和 DPO 可能會過度約束模型,限制在線強化學習階段的探索,并導致精度降低,尤其是在推理、編碼和數學領域。

        為了解決這個問題,他們使用 Llama 模型作為評判標準,刪除了 50% 以上被標記為簡單的數據,并對剩余的較難數據集進行了輕量級 SFT 處理。

        在隨后的在線強化學習階段,通過仔細選擇較難的提示,我們實現了性能上的飛躍。

        此外,他們還實施了一種連續的在線強化學習策略,即交替訓練模型,然后利用模型不斷過濾并只保留中等難度到較高難度的提示。事實證明,這種策略在計算量和準確性的權衡方面非常有利。

        然后,他們采用輕量級 DPO 來處理與模型響應質量相關的拐角情況,從而有效地在模型的智能性和對話能力之間實現了良好的平衡。流水線架構和帶有自適應數據過濾功能的連續在線 RL 策略,最后造就了現在的 LIama 4。

        總結來看,Llama 4 架構的一項關鍵創新是使用交錯注意力層,而無需位置嵌入。此外,他們還采用了注意力推理時間溫度縮放來增強長度泛化。

        這些他們稱之為 iRoPE 架構,其中“i”代表“交錯”注意力層,突出了支持“無限”上下文長度的長期目標,而“RoPE ”指的是大多數層中采用的旋轉位置嵌入。

        Llama 4 Behemoth

        最后,他們還透露了超大模型 Llama 4 Behemoth 一些蒸餾和訓練細節。

        我們開發了一種新穎的蒸餾損失函數,可通過訓練動態加權軟目標和硬目標。

        預訓練階段,Llama 4 Behemoth 的代碼蒸餾功能可以攤銷學生訓練中使用的大部分訓練數據計算蒸餾目標所需的資源密集型前向傳遞的計算成本。對于納入學生訓練的其他新數據,他們在 Behemoth 模型上運行前向傳遞,以創建蒸餾目標。

        后訓練階段,為了最大限度地提高性能,他們刪減了 95% 的 SFT 數據,而小型模型只需刪減 50% 的數據,以實現對質量和效率的必要關注。

        他們在進行輕量級 SFT 后,再進行大規模強化學習(RL),模型的推理和編碼能力會有更顯著的提高。

        強化學習方法側重于通過對策略模型進行 pass@k 分析來抽取高難度提示,并根據提示難度的增加精心設計訓練課程。

        此外還發現,在訓練過程中動態過濾掉優勢為零的提示語,并構建包含多種能力的混合提示語的訓練批次,有助于提高數學、推理和編碼的性能。最后,從各種系統指令中取樣對于確保模型在推理和編碼方面保持指令跟隨能力并在各種任務中表現出色至關重要。

        由于其規??涨埃獮閮扇f億個參數模型擴展 RL,還需要改造底層 RL 基礎設施。

        他們優化了 MoE 并行化的設計,從而加快了迭代速度;并開發了一個完全異步的在線 RL 訓練框架,提高了靈活性。

        現有的分布式訓練框架會犧牲計算內存以將所有模型堆疊在內存中,相比之下,他們新基礎架構能夠將不同模型靈活分配到不同 GPU 上,并根據計算速度在多個模型之間平衡資源。

        與前幾代產品相比,這一創新使訓練效率提高了約 10 倍。

        One More Thing

        要知道,由于昨天 DeepSeek 發了新論文,搞得奧爾特曼都坐不住了,趕緊出來發聲:

        計劃改變:我們可能在幾周之后先發布 o3 和 o4-mini。

        GPT-5 就在幾個月后啊~

        但,誰知道半路又殺出個 Llama 4?!

        前有猛虎,后有豺狼,OpenAI 你真的得加油了……

        網友調侃道,當奧爾特曼一睜眼,看到 Llama 4 來了,而且 Llama 4 的成本比 GPT-4.5 降低了 3 個數量級后 ——

        他的狀態一定是醬嬸兒的:

        以及相比 Llama,現在可能神秘低調的 DeepSeek,可能不知道什么時候突然就會推出 DeepSeek R2 和 V4… 同在杭州的通義千問也干勁十足,Llama 也好 GPT 也好,基本成為平行參考了。

        太平洋這頭,已經開始落地應用和智能體了。

        參考鏈接:

        • [1]https://www.llama.com/

        • [2]https://ai.meta.com/blog/llama-4-multimodal-intelligence/

        • [3]https://x.com/AIatMeta/status/1908598456144531660

        • [4]https://x.com/lmarena_ai/status/1908601011989782976

        • [5]https://x.com/IOHK_Charles/status/1908635624036590070

          本文來自微信公眾號:量子位(ID:QbitAI),作者:白交衡宇,原標題《LIama 4 發布重奪開源第一!DeepSeek 同等代碼能力但參數減一半,一張 H100 就能跑,還有兩萬億參數超大杯》

  • 猜你喜歡
  • 相關手機游戲
  • 最新手機精選
九九99久久精品午夜剧场免费