NSA.MA-A3加速卡

恒揚數(shù)據(jù)NSA.MA-A3加速卡是一款半高半長PCIe加速卡,該卡具備業(yè)界領先的400G+PCIe Gen5.0x16高速接口,單板PCIe供電, 兼容高性能和緊湊型機箱,可提供超高帶寬、低延遲的數(shù)據(jù)傳輸解決方案,適用于智算數(shù)據(jù)中心AI網(wǎng)絡、云計算、邊緣計算、網(wǎng)絡加速和高性能計算等領域,能夠有效支持需要大量數(shù)據(jù)交換和實時處理的應用場景。

  • 產(chǎn)品概述

  • 性能特點

  • 典型應用

恒揚數(shù)據(jù)NSA.MA-A3加速卡是一款半高半長PCIe加速卡, 該卡具備業(yè)界領先的400G+PCIe Gen5.0x16高速接口,單板PCIe供電, 兼容高性能和緊湊型機箱,可提供超高帶寬、低延遲的數(shù)據(jù)傳輸解決方案,適用于智算數(shù)據(jù)中心AI網(wǎng)絡、云計算、邊緣計算、網(wǎng)絡加速和高性能計算等領域,能夠有效支持需要大量數(shù)據(jù)交換和實時處理的應用場景。

? 高帶寬高密度
具備 400G面板接口和PCIe Gen5接口,支持極高的數(shù)據(jù)傳輸速率,滿足大規(guī)模數(shù)據(jù)處理和實時應用的需求。適用于高性能計算和數(shù)據(jù)中心環(huán)境中的高速數(shù)據(jù)傳輸需求,如AI網(wǎng)絡等。半高半長卡設計,使得該卡能夠在更緊湊的機箱中使用,適應各種空間受限的環(huán)境,同時保持卓越的性能表現(xiàn)。
? 可編程加速
基于 Agilex 7 FPGA 的 NSA.MA-A3卡能夠根據(jù)具體的應用需求進行編程和優(yōu)化。這意味著它可以靈活地加速不同的 AI 工作負載,包括深度學習推理、數(shù)據(jù)預處理和模型壓縮等。
? 硬件加速器集成
Agilex 7 系列 FPGA 支持集成高效的 DSP 模塊和專用的 AI 引擎,可以加速復雜的數(shù)學計算,如矩陣運算、卷積運算等,大幅提升 AI 算法的執(zhí)行速度。
? 低延遲和高帶寬
 結合 400G 接口和 PCIe Gen5 技術和FPGA 的并行處理能力,確保了低延遲和高吞吐量處理網(wǎng)絡流量,適用于需要實時處理和快速響應的 AI應用場景,提升了系統(tǒng)的整體響應速度和數(shù)據(jù)處理能力。
? 高能效比 
相比軟件實現(xiàn)方案,F(xiàn)PGA加速性能有數(shù)倍甚至百倍的提升,每Watt功耗獲得的性能優(yōu)勢明顯,性價比、性能功耗比相較傳統(tǒng)服務器CPU有量級倍數(shù)的提升。

靈活升級更新
FPGA加速卡可在線升級更新加速算法,且無需重啟服務器,可靈活適應不同加速場景,具備通用性。
? 應用廣泛 
適用于數(shù)據(jù)中心、云計算、邊緣計算、網(wǎng)絡加速和高性能計算等領域,能夠有效支持需要大量數(shù)據(jù)交換和實時處理的應用場景

智算中心的 AI NIC 解決方案

智算中心的需求與挑戰(zhàn)
隨著AI模型的規(guī)模和復雜性不斷增加,尤其是在深度學習和大數(shù)據(jù)處理的背景下,數(shù)據(jù)傳輸量劇增,網(wǎng)絡容易成為系統(tǒng)性能的瓶頸。特別是在分布式計算環(huán)境中,節(jié)點之間的數(shù)據(jù)交換頻繁,若網(wǎng)絡帶寬不足或延遲過高,會嚴重影響AI任務的執(zhí)行效率,所以AI網(wǎng)絡需要支持高帶寬以便在節(jié)點之間快速傳輸大量數(shù)據(jù)。同時,低延遲是實時AI訓練和推理的關鍵。

解決方案實現(xiàn)
 - 接口速率: 提供單口400GE或雙口200GE IO以及PCIe Gen5高速接口,能夠滿足AI計算和數(shù)據(jù)中心應用對帶寬的嚴苛需求。
 - FPGA 直達 NVMe 存儲: 通過 FPGA 直接連接 NVMe 存儲設備,實現(xiàn)數(shù)據(jù)的高速讀寫,減少中間環(huán)節(jié)帶來的延遲,從而顯著提升系統(tǒng)的整體性能。
- RDMA 協(xié)議: 搭載標準/自研 RDMA協(xié)議,實現(xiàn)了遠程內(nèi)存訪問的高效性和低延遲,適用于大規(guī)模數(shù)據(jù)處理和高性能計算任務。
 - 自研通信庫: 硬件結合自研通信庫,能夠?qū)崟r感知業(yè)務需求,并根據(jù)實際應用場景動態(tài)調(diào)整,優(yōu)化數(shù)據(jù)傳輸路徑和計算任務分配。
- 多路徑高性能擁塞控制算法: 自研的多路徑擁塞控制算法在高并發(fā)和高負載情況下,能夠智能地選擇最佳數(shù)據(jù)傳輸路徑,避免網(wǎng)絡擁塞,保障數(shù)據(jù)傳輸?shù)姆€(wěn)定性和速度。
 - 降低長尾時延: 硬件級重傳機制有效減少了因網(wǎng)絡波動和數(shù)據(jù)包丟失導致的延遲,長尾時延降低達 50%,顯著減少了因重傳帶來的等待時間,提升了整體系統(tǒng)響應速度。