科技新突破 | DeepSeek提出全新注意力機制架構  長上下文建模更高效

2025-02-19 16:45:40 來源: 科技日報 點擊數(shù):

2月16日,DeepSeek研究團隊在arXiv上發(fā)表論文,提出了一種全新的注意力機制架構NSA(Native SparseAttention,原生稀疏注意力),專為超快長上下文訓練和推斷而設計,具有硬件對齊的特點,梁文鋒參與共創(chuàng)。

(科技日報 趙衛(wèi)華 李忠明)

責任編輯:冷媚

抱歉,您使用的瀏覽器版本過低或開啟了瀏覽器兼容模式,這會影響您正常瀏覽本網(wǎng)頁

您可以進行以下操作:

1.將瀏覽器切換回極速模式

2.點擊下面圖標升級或更換您的瀏覽器

3.暫不升級,繼續(xù)瀏覽

繼續(xù)瀏覽