鑫昌軟件園鑫昌秘籍 → OpenAI 最強推理模型、能夠“思考”圖片,o3 和 o4-mini 正式發布

OpenAI 最強推理模型、能夠“思考”圖片,o3 和 o4-mini 正式發布

2025-04-17 11:53:03      小編:鑫昌軟件園      

感謝本站網友 GreatMOLA、耐小心 的線索投遞!

本站 4 月 17 日消息,在今日凌晨的直播中,OpenAI 正式發布了o3 和 o4-mini 模型。本站匯總內容如下:

OpenAI 官方介紹稱,這是其在 o 系列模型中最新訓練的成果,可以在回答前進行更長時間的思考,也宣稱是“迄今為止 OpenAI發布的最智能的模型”,代表了 ChatGPT 能力的一次重大飛躍,從好奇的用戶到高級研究人員都將因此受益。

首次,新的推理模型可以智能地使用和結合 ChatGPT 中的每一個工具 —— 包括搜索網絡、使用 Python 分析上傳的文件和其他數據、深入推理視覺輸入,甚至生成圖像。

關鍵的是,這些模型被訓練來推理何時以及如何使用工具來產生詳細和深思熟慮的答案,通常在不到一分鐘內,以解決更復雜的問題。這使得它們能夠更有效地處理多方面的問題,朝著更智能、能夠獨立執行任務的 ChatGPT 邁進。

性能表現

o3 是 OpenAI最強大的推理模型,它在編碼、數學、科學、視覺感知等領域號稱處于前沿,在包括 Codeforces、SWE-bench 和 MMMU 在內的基準測試中實現了新的 SOTA。

OpenAI 稱,o3 非常適合需要多方面分析和答案可能不明顯的高級查詢。它在分析圖像、圖表和圖形等視覺任務上表現尤為出色。在外部專家的評估中,o3 在困難、現實世界的任務上比 OpenAI o1 少犯 20% 的重大錯誤 —— 特別是在編程、商業 / 咨詢和創意構思等領域表現出色。

早期測試者強調了其作為思維伙伴的分析嚴謹性,并強調了其生成和批判性地評估新穎假設的能力 —— 特別是在生物學、數學和工程背景下。

OpenAI o4-mini 是一個針對快速、成本效益推理進行優化的較小模型 —— 它在其大小和成本方面取得了“令人矚目的性能”,尤其是在數學、編碼和視覺任務上。在 AIME 2025 上,當提供 Python 解釋器時,o4-mini 得分 99.5%。在專家評估中,它還在非 STEM 任務以及數據科學等領域相比前輩 o3-mini 表現更出色。得益于其效率,o4-mini 支持比 o3 高得多的使用限制,使其成為推理受益問題的強大高容量、高吞吐量選項。

與 OpenAI 的前幾代推理模型相比,這兩個模型也支持更加自然的對話,尤其是在它們參考記憶和過去的對話來使響應更加個性化和相關時。

能夠推理圖片

在整個 OpenAI o3 的開發過程中,OpenAI 發現大規模強化學習表現出與 GPT 系列預訓練中觀察到的相同的“更多計算能力 = 更好性能”趨勢。通過重走擴展路徑,OpenAI 在訓練計算和推理時間上又推進了一個數量級,但仍然看到了明顯的性能提升,這驗證了隨著模型被允許進行更多思考,其性能仍在持續提升。與 OpenAI o1 相比,在相同的延遲和成本下,o3 在 ChatGPT 中提供了更高的性能 —— 如果我們讓它思考更長的時間,其性能會持續攀升。

從下面這個實例可以看到,這些模型可以直接將圖像整合到它們的思維鏈中。它們不僅僅是看圖像 —— 而是用圖像思考。這解鎖了一種新的問題解決類別,融合了視覺和文本推理。

人們可以上傳白板照片、教科書圖表或手繪草圖,即使圖像模糊、顛倒或質量很低,模型也可以解讀它們。通過使用工具,模型甚至可以實時操作圖像 —— 旋轉、縮放或將其作為推理過程的一部分進行變換。

OpenAI o3 和 o4-mini 可以完全訪問 ChatGPT 中的工具,以及通過 API 中的函數調用使用開發者自己的自定義工具。OpenAI 稱,這些模型經過訓練,能夠推理如何解決問題,選擇何時以及如何使用工具,以快速生成詳細且深思熟慮的答案,通常在不到一分鐘內完成。

例如,用戶可能會問:“加利福尼亞的夏季能源使用量與去年相比如何?”該模型可以搜索公共事業數據,編寫 Python 代碼進行預測,生成圖表或圖像,并解釋預測背后的關鍵因素,通過多個工具調用串聯起來。推理能力使模型能夠根據遇到的信息做出反應和調整。例如,它們可以在搜索提供商的幫助下多次搜索網絡,查看結果,并在需要更多信息時嘗試新的搜索。

成本

從成本來看,OpenAI 號稱 o3 和 o4-mini 是其發布過的最智能的模型,它們通常也比 o1 和 o3-mini 更高效。例如,在 2025 AIME 數學競賽中,o3 的性價比優于 o1;同樣,o4-mini 也優于 o3-mini。

安全性

安全性方面,OpenAI o3 和 o4-mini 完全重建了安全訓練數據,在生物威脅(生物風險)、惡意軟件生成和越獄等領域添加了新的拒絕提示。這些更新的數據使 o3 和 o4-mini 在其內部拒絕基準測試中取得了優異的成績(例如,指令層次結構、越獄)。

除了在模型拒絕方面表現出色外,OpenAI還開發了系統級緩解措施,以標記前沿風險領域的危險提示。類似于在圖像生成方面的早期工作,OpenAI訓練了一個推理 LLM 監控器,該監控器從人類編寫的可解釋安全規范中工作。當應用于生物風險時,該監控器成功標記了約 99% 的對話。

怎么使用

ChatGPT Plus、Pro 和 Team 用戶將從今天開始可以在模型選擇器中看到 o3、o4-mini 和 o4-mini-high,取代 o1、o3-mini 和 o3-mini-high。ChatGPT Enterprise 和 Edu 用戶將在一周后獲得訪問權限。免費用戶可以在提交查詢前選擇“思考”來嘗試 o4-mini。所有計劃中的速率限制與之前的一組模型保持不變。

OpenAI 預計將在幾周內發布 OpenAI o3-pro,并支持全部工具。目前,Pro 用戶仍然可以訪問 o1-pro。

今天更新的內容反映了 OpenAI 模型的發展方向 —— 將 o 系列的專業推理能力與 GPT 系列的自然對話能力和工具使用能力相結合。

  • 相關手機游戲
  • 最新手機精選
九九99久久精品午夜剧场免费