<bdo id="im19a"><video id="im19a"><tr id="im19a"></tr></video></bdo>

科技新突破 | DeepSeek提出全新注意力機制架構長上下文建模更高效

2025-02-19 16:45:40 來源: 科技日報點擊數(shù)：

2月16日，DeepSeek研究團隊在arXiv上發(fā)表論文，提出了一種全新的注意力機制架構NSA（Native SparseAttention，原生稀疏注意力），專為超快長上下文訓練和推斷而設計，具有硬件對齊的特點，梁文鋒參與共創(chuàng)。

（科技日報趙衛(wèi)華李忠明）

責任編輯：冷媚

熱點

3月10日：人代會審議全國人大常委會工作報告等全國政協(xié)十四屆三次會議閉幕

中國下一代“人造太陽”關鍵系統(tǒng)通過驗收達到國際先進水平

這些大事值得期待！代表委員透露→

紅山文化考古發(fā)現(xiàn)不斷見證中華文明“璀璨星辰”

友情鏈接

Copyright ? Science and Technology Daily, All Rights Reserved: 科技日報社中國科技網(wǎng) 版權所有

抱歉，您使用的瀏覽器版本過低或開啟了瀏覽器兼容模式，這會影響您正常瀏覽本網(wǎng)頁

您可以進行以下操作:

1.將瀏覽器切換回極速模式

2.點擊下面圖標升級或更換您的瀏覽器

3.暫不升級，繼續(xù)瀏覽

繼續(xù)瀏覽