據科技日報消息,9月17日,DeepSeek-AI團隊梁文鋒及其同事在《自然》雜志上發表了開源人工智能(AI)模型DeepSeek-R1所采用的大規模推理模型訓練方法。
另據第一財經報道,與今年1月發布的DeepSeek-R1的初版論文相比,本次論文披露了更多模型訓練的細節,并正面回應了模型發布之初的蒸餾質疑。
DeepSeek-R1也是全球首個經過同行評審的主流大語言模型。Nature評價道:目前幾乎所有主流的大模型都還沒有經過獨立同行評審,這一空白“終于被DeepSeek打破”。
DeepSeek-R1包含一個在人類監督下的深入訓練階段,以優化推理過程。梁文鋒團隊報告稱,該模型使用了強化學習而非人類示例來開發推理步驟,減少了訓練成本和復雜性。
DeepSeek-R1在被展示優質的問題解決案例后,會獲得一個模板來產生推理過程,即這一模型通過解決問題獲得獎勵,從而強化學習效果。團隊總結說,未來研究可以聚焦優化獎勵過程,以確保推理和任務結果更可靠。
梁文鋒出生于1985年,廣東湛江人,幻方量化、DeepSeek創始人。2024年12月,梁文鋒和團隊開發的大模型“DeepSeek-V3”發布。2025年4月,梁文鋒入選美國《時代》周刊“2025年全球最具影響力100人”榜單。
DeepSeek是2023年成立于杭州的人工智能公司,由幻方量化孵化。創始團隊由梁文鋒領銜,成員來自頂尖高校與國際機構技術專家。
責任編輯:張峰培
特別聲明:本網登載內容出于更直觀傳遞信息之目的。該內容版權歸原作者所有,并不代表本網贊同其觀點和對其真實性負責。如該內容涉及任何第三方合法權利,請及時與ts@hxnews.com聯系或者請點擊右側投訴按鈕,我們會及時反饋并處理完畢。
- 曙光云X DeepSeek 掀起泉州“智變”風暴2025-04-26
- 李開復:DeepSeek將中美AI差距縮小至3個月2025-03-25
- 女生攢百萬被DeepSeek辣評無效存錢:存款利率跑不贏通貨膨脹率2025-03-18
- 最新國內新聞 頻道推薦
-
國慶中秋假期首日車票今起發售,旅客購票乘車2025-09-18
- 進入圖片頻道最新圖文
- 進入視頻頻道最新視頻
- 一周熱點新聞


已有0人發表了評論
您需要登錄后才可以評論,登錄| 注冊