亚洲欧美日本一区二区_免费裸体美女网站_日本中文字幕高清_亚洲天堂2018av_日韩视频免费在线播放_僵尸世界大战2 在线播放_二级片在线观看_av视屏在线播放_精品人妻大屁股白浆无码_久久99国产精品一区_爱爱爱爱免费视频_一区二区在线播放视频

首頁 > 科技活動 > 每日活動 > DeepSeek V4借實習生獲獎論文“起飛”?梁文峰劍指上下文:處理速度提10倍、要“完美”準確率

DeepSeek V4借實習生獲獎論文“起飛”?梁文峰劍指上下文:處理速度提10倍、要“完美”準確率

發布時間:2025-07-31 21:22:38

7 月 30 日,ACL(國際計算語言學年會)公布了 2025 年的獲獎論文。令人驚喜的是,這些論文里的中國作者比例超過 51%,排在第二的美國僅為 14%

其中,一篇由 DeepSeek 梁文鋒作為通訊作者、與北京大學等聯合發表的論文不僅拿下 Best Paper 獎,相關成果也引發熱議。

現場講座中,該論文的第一作者袁境陽透露,這項技術可以把上下文長度擴展到 100 萬 tokens,并將應用在他們的下一個前沿模型中。據了解,袁境陽當時寫這篇論文時還只是 Deepseek 的實習生。

圖片

引入兩大核心技術創新

長上下文建模對于下一代語言模型至關重要,但標準注意力機制的高計算成本帶來了顯著的計算挑戰。隨著序列長度的增加,延遲瓶頸問題愈發凸顯。理論估算表明,在解碼 64k 長度的上下文時,采用 softmax 架構的注意力計算占總延遲的 70%–80%,這凸顯了對更高效注意力機制的迫切需求。

為解決這些局限性,有效的稀疏注意力機制在實際應用中必須應對兩項關鍵挑戰:與硬件適配的推理加速,要將理論上的計算量減少轉化為實際的速度提升,就需要在預填充和解碼階段都采用硬件友好型的算法設計,以緩解內存訪問和硬件調度方面的瓶頸;兼顧訓練的算法設計,通過可訓練算子實現端到端計算,在維持模型性能的同時降低訓練成本。

綜合考慮這兩個方面,現有方法仍存在明顯差距。該團隊認為,稀疏注意力為在保持模型能力的同時提高效率提供了一個很有前景的方向。

在獲獎論文中,他們提出了 NSA,這是一種可原生訓練的稀疏注意力(Natively trainable Sparse Attention)機制。它將算法創新與硬件對齊優化相結合,以實現高效的長上下文建模。據介紹,NSA 采用動態分層稀疏策略,結合粗粒度的 token 壓縮和細粒度的 token 選擇,以同時保留全局上下文感知和局部精度。

圖片

具體來說,NSA 引入了兩項核心創新。

通過算術強度平衡的算法設計實現了顯著的加速,并針對現代硬件進行了實現優化:優化塊式稀疏注意力,以提高張量核利用率和內存訪問,確保均衡的算術強度。

通過高效算法和反向算子實現穩定的端到端訓練,在不犧牲模型性能的情況下減少了預訓練計算量。

上下文處理速度狂飆,

準確率堪稱“完美”

在真實世界語言語料庫上進行綜合實驗評估后,NSA 由于稀疏性過濾掉更多噪聲,在基準測試中產生更好的準確率。據悉,該團隊在一個擁有 270 億參數的 Transformer 骨干網絡(其中激活參數為 30 億)上,使用 2600 億個 token 進行預訓練,并從通用語言評估、長上下文評估和思維鏈推理評估三個方面評估了 NSA 的性能,還在 A100 GPU 上將其內核速度與經過優化的 Triton 實現作了進一步比較。

實驗結果表明,NSA 的整體性能與全注意力模型相當甚至更優。在 9 項指標中的 7 項上,NSA 均超過了包括全注意力模型在內的所有基線。這表明,盡管 NSA 在較短序列上可能無法充分發揮其效率優勢,但它展現出了強勁的性能。

值得注意的是,NSA 在推理相關的基準測試中取得了顯著提升(DROP:+0.042,GSM8K:+0.034),這說明該團隊的預訓練有助于模型發展出專門的注意力機制。這種稀疏注意力預訓練機制迫使模型聚焦于最重要的信息,通過過濾無關注意力路徑中的噪聲,可能會提升性能。在各類評估中表現出的一致性,也驗證了 NSA 作為通用架構的穩健性。

在 64k 上下文的“大海撈針”測試中,NSA 在所有位置都實現了完美的檢索準確率。此外,與全注意力相比,NSA 在解碼、前向傳播和反向傳播方面都實現了顯著的速度提升,且序列越長,提速比例越大。

圖片

據該團隊稱,這一性能正是得益于其分層稀疏注意力設計,該設計結合了用于高效全局上下文掃描的 token 壓縮和用于精確局部信息檢索的 token 選擇。粗粒度的 token 壓縮以較低的計算成本識別相關的上下文塊,而對 token 選擇的標記級注意力則確保保留關鍵的細粒度信息。

同時,NSA 優于多種現有的稀疏注意力方法,包括 H2O、infLLM、Quest 以及 Exact-Top。

圖片

值得注意的是,NSA 在需要對長上下文進行復雜推理的任務上表現出色,在多跳問答任務(HPQ 和 2Wiki)上比全注意力模型分別提升 0.087 和 0.051,在代碼理解任務(LCC)上超出基線模型 0.069,在段落檢索任務(PassR-en)上優于其他方法 0.075。這些結果也驗證了 NSA 處理各種長上下文挑戰的能力,其原生預訓練的稀疏注意力在學習任務最優模式方面帶來了額外優勢。

為評估 NSA 與先進下游訓練范式的兼容性,該團隊研究了其通過后期訓練獲得思維鏈數學推理能力的潛力。鑒于強化學習在較小規模模型上的效果有限,其采用來自 DeepSeek-R1 的知識蒸餾,使用 100 億個 32k 長度的數學推理軌跡進行有監督微調(SFT)。這產生了兩個可比較的模型:全注意力 - R(全注意力基線模型)和 NSA-R(稀疏變體)。

接著,他們在具有挑戰性的美國數學邀請賽(AIME 24)基準上對這兩個模型進行了評估,使用 0.7 的采樣溫度和 0.95 的核采樣值,為每個問題生成 16 個回答并取平均分。并且,為驗證推理深度的影響,他們在兩種生成上下文序列下進行了實驗。結果顯示,NSA-R 在 8k 和 16k 序列長度下的表現均優于全注意力 - R。

圖片

這些結果驗證了原生稀疏注意力的兩項關鍵優勢:(1)預訓練的稀疏注意力模式能夠高效捕捉復雜數學推導所必需的長程邏輯依賴關系;(2)我們架構的硬件對齊設計保持了足夠的上下文密度,以支持推理深度的增加,同時避免災難性遺忘。在不同上下文長度下的持續優異表現證實,當稀疏注意力被原生整合到訓練流程中時,其在高級推理任務中具有切實可行性。

計算效率方面,該團隊將基于 Triton 實現的 NSA 注意力機制和全注意力機制,與基于 Triton 的 FlashAttention-2 在 8-GPU A100 系統進行了比較,以確保在相同后端下進行公平的速度對比。

結果表明,隨著上下文長度的增加,NSA 實現了越來越顯著的速度提升。在 64k 上下文長度下,前向速度提升高達 9.0 倍,反向速度提升高達 6.0 倍。值得注意的是,序列越長,速度優勢就越明顯。隨著解碼長度的增加,NSA 的方法延遲顯著降低,在 64k 上下文長度下提速高達 11.6 倍,且這種內存訪問效率方面的優勢也會隨著序列變長而進一步擴大。

圖片

值得一提的是,這篇論文早在今年 2 月就對外公布,而相關研究成果至今還沒有出現在任何 DeepSeek 模型中。不過,根據論文一作袁境陽的說法,DeepSeek 下一代模型就將應用這項技術,這也讓許多網友對 DeepSeek V4 的發布更加期待,畢竟其與 DeepSeek R2 的發布計劃似乎也有很大關聯。

早在今年 4 月,就有“DeepSeek R2 提前泄露”的傳言在 AI 圈刷屏。源頭是來自 Hugging Face CEO 發布的一條耐人尋味的帖子,配圖是 DeepSeek 在 Hugging Face 的倉庫鏈接,接著引發不少關于 R2 發布時間和技術細節的各類傳播。但對此,DeepSeek 官方一直未作出回應。

前不久,有外媒報道稱,DeepSeek R2 可能繼續推遲。遲遲未發布的內部原因是 DeepSeek 創始人梁文鋒對該模型當前的性能不滿意,工程師團隊仍在優化和打磨。與此同時,也有人這樣推測:R2 好歹要等 V4 出來再說,V3 可能已經到達極限了。

每日活動更多>>

一汽解放的務實生意經:會“軟著陸”,懂“服水土” 超越電費賬單:解構新能源車的全生命周期成本博弈! 售價31.3萬元起 蔚來新ET5/ET5T遠空套裝限定車型開啟預訂 開啟“3級自動駕駛車型產品”大門,不是打開潘多拉魔盒 穩健蓄力謀長遠,上汽大眾2026產品棋局落子有聲 零跑,這個精明的新勢力品牌明年將沖刺百萬年銷 深藍L06算得上“平民版法拉利”嗎? 800伏架構+382千瓦快充,小鵬G6在德國“電力全開” 能是“必須成功”的電動車?首試大眾ID. Polo,沒有退路 奧迪:我們只能造出熱效率38%的發動機,你們是怎么做到45%的? 花活玩得差不多了!明年新能源車會有三大趨勢,買錯車后悔兩三年 近20家車企砸錢“兜底補貼”,只是車市殘酷淘汰賽的開始 國民MPV銳勝M8進京趕考 13萬級有里有面的大家伙 奧迪E7X首次公開,豪華電動SUV市場格局或將有新變量 時代真變了!BBA變A(AITO)BB,極氪、小米們虎視眈眈 2025年成百上千個汽車營銷案例,我只記住了一個 法拉利296 Speciale:458 Speciale的完美繼任者 MEGA并非導火索,理想汽車不太“理想” 蔣燾接替盧放 嵐圖2026能否保持佳績? 兩千萬的手動擋:能買Carrera GT的人,不關心這車多少錢 致敬臺灣秀美風光,保時捷受托打造全球唯一911 Carrera T定制車款 售價140萬元 領克03+ TCR賽車正式發售 2025年最后一屆工信部車展來了!AUDI首款SUV亮相,比亞迪秦家族又添一款新車 長城汽車:構建的技術壁壘與全球格局卻日益深厚,脫離亞健康狀態 中國首臺自研TCR賽車亮相,領克03+ TCR版售價140萬 更名“FOR ME”!蓮花ELETRE插混版申報 極石汽車官方宣布第20000輛正式下線,實現連續11個月銷量正增長 小改款=全方位躍升?試26款吉利銀河星艦7 EM-i 新款豐田世紀官圖,漲價也只能割日本市場的韭菜 smart精靈6號亮相工信部,定位豪華掀背轎車,綜合續航超1800公里
亚洲欧美日本一区二区_免费裸体美女网站_日本中文字幕高清_亚洲天堂2018av_日韩视频免费在线播放_僵尸世界大战2 在线播放_二级片在线观看_av视屏在线播放_精品人妻大屁股白浆无码_久久99国产精品一区_爱爱爱爱免费视频_一区二区在线播放视频
天堂视频免费看| 特级丰满少妇一级| www.四虎成人| 草草视频在线免费观看| 性久久久久久久久久久久久久| 无码精品a∨在线观看中文| 天堂а√在线中文在线| 九一精品久久久| 免费涩涩18网站入口| 欧美成人黑人猛交| 北条麻妃在线视频观看| 国产一区二区四区| 日本香蕉视频在线观看| 中文字幕第50页| 国产高潮呻吟久久久| 亚洲综合123| 中文字幕制服丝袜在线| 亚洲精品中文字幕乱码无线| 在线看免费毛片| 婷婷激情小说网| 欧美 另类 交| 菠萝蜜视频在线观看入口| 超薄肉色丝袜足j调教99| 91九色国产ts另类人妖| 国产资源第一页| 亚洲精品久久久久久久蜜桃臀| 激情视频小说图片| 国产一级做a爰片久久毛片男| 99久久免费观看| 日韩中文字幕在线免费| 精品一区二区中文字幕| 国产精品少妇在线视频| 天堂中文视频在线| 亚洲天堂网2018| 裸体裸乳免费看| 久久99中文字幕| 黄色a级片免费| 蜜臀一区二区三区精品免费视频| 久久婷婷中文字幕| 大胆欧美熟妇xx| 人妻有码中文字幕| 中文字幕国产免费| 国产香蕉一区二区三区| 一区二区传媒有限公司| 性欧美videossex精品| 手机福利在线视频| 国产一级爱c视频| 黄色一级免费大片| 午夜一级免费视频| 日韩亚洲欧美一区二区| 亚洲熟妇av一区二区三区漫画| 久久久久国产精品熟女影院| 一级黄色在线播放| 国产精品久久久久久久久电影网| 2022亚洲天堂| 极品粉嫩美女露脸啪啪| 人人妻人人做人人爽| 午夜激情在线观看视频| 国产盗摄视频在线观看| 国产无套内射久久久国产| www.夜夜爽| 无码 制服 丝袜 国产 另类| 国产理论在线播放| 成人在线免费观看视频网站| 成人一级片网站| www.亚洲一区二区| 玩弄japan白嫩少妇hd| 无码人妻aⅴ一区二区三区日本| 成人毛片视频网站| 午夜在线视频免费观看| www.com毛片| 欧美 日韩 国产 在线观看| 成年人观看网站| 女女同性女同一区二区三区按摩| 99999精品视频| 欧美 国产 精品| 中文久久久久久| 久艹视频在线免费观看| 国产成人美女视频| 中国丰满人妻videoshd| 在线观看污视频| 亚洲欧美日韩三级| aaa毛片在线观看| 激情六月天婷婷| 在线视频观看91| 丰满少妇在线观看| 欧美综合在线播放| 永久免费网站视频在线观看| www.精品在线| 日本精品www| 妞干网在线视频观看| av电影一区二区三区| 亚洲 激情 在线| 成年网站在线免费观看| 日本福利视频网站| 黄色三级视频在线播放| 黄色aaa级片| 能在线观看的av| 久久精品国产sm调教网站演员| 成人性做爰片免费视频| 午夜久久福利视频| 黄色免费网址大全| 国产熟女高潮视频| heyzo亚洲| 欧美国产日韩激情| 996这里只有精品| 警花观音坐莲激情销魂小说| 午夜啪啪小视频| 天天干天天操天天做| av丝袜天堂网| 国产精品无码一本二本三本色| 一区二区传媒有限公司| av高清在线免费观看| 欧美在线观看视频免费| 日本xxxxx18| 欧美一级免费在线观看| 中文字幕在线视频一区二区三区| 91日韩视频在线观看| 欧美一级黄色片视频| 欧美激情国产精品日韩| 美女av免费在线观看| 国产精品无码av在线播放| 国产日韩av网站| 日本www在线视频| 熟女少妇在线视频播放| 可以在线看的av网站| 久久久久久久久久久99| 日韩精品第1页| 7777在线视频| 水蜜桃在线免费观看| 草草草视频在线观看| 野外做受又硬又粗又大视频√| www.av91| 日本十八禁视频无遮挡| 精品人妻一区二区三区四区在线| 青青草原成人网| 国产天堂在线播放| 色婷婷综合网站| 日韩精品在线播放视频| 久久观看最新视频| 欧美精品卡一卡二| 国产精品宾馆在线精品酒店| 国产第一页视频| 欧美 日韩 国产精品| 麻豆一区二区三区在线观看| 日本免费a视频| 日本中文字幕片| 爱爱爱爱免费视频| 国内外成人激情免费视频| 日本黄色片一级片| 日本精品免费在线观看| 激情视频免费网站| 一区二区三区四区久久| 中国丰满熟妇xxxx性| 国产第一页视频| 亚洲一二区在线观看| 久久手机在线视频| 日本成人黄色网| 三年中国中文在线观看免费播放| 日韩在线观看a| 自拍偷拍 国产| 黄色一级视频播放| 99精品人妻少妇一区二区 | 精品国产成人av在线免| 天天干天天草天天| 国产一二三四五| 欧美女人性生活视频| 亚洲天堂av一区二区| 国产日韩亚洲欧美在线| 别急慢慢来1978如如2| 三级网在线观看| 国产精品沙发午睡系列| 亚洲欧美自拍另类日韩| 996这里只有精品| 一区二区三区视频网| 久久在线中文字幕| 91丨九色丨蝌蚪| 91视频 -- 69xx| 黄瓜视频免费观看在线观看www | 操bbb操bbb| 99热成人精品热久久66| 国产福利片一区二区| 国产主播在线看| 香蕉视频xxx| 欧美精品色婷婷五月综合| 中文字幕第一页亚洲| 性欧美极品xxxx欧美一区二区| 穿情趣内衣被c到高潮视频| 日韩毛片在线免费看| 成人av在线不卡| 天天综合网日韩| 久久久999视频| 男女裸体影院高潮| 在线观看国产中文字幕| 北条麻妃在线视频观看| 91社在线播放| 三上悠亚在线一区二区| 免费在线观看的av网站| 欧美这里只有精品| 久久久久久综合网|