2月16日,DeepSeek研究團隊在arXiv上發(fā)表論文,提出了一種全新的注意力機制架構NSA(Native SparseAttention,原生稀疏注意力),專為超快長上下文訓練和推斷而設計,具有硬件對齊的特點,梁文鋒參與共創(chuàng)。
(科技日報 趙衛(wèi)華 李忠明)
2月16日,DeepSeek研究團隊在arXiv上發(fā)表論文,提出了一種全新的注意力機制架構NSA(Native SparseAttention,原生稀疏注意力),專為超快長上下文訓練和推斷而設計,具有硬件對齊的特點,梁文鋒參與共創(chuàng)。
(科技日報 趙衛(wèi)華 李忠明)