Ми раді поділитися результатами нашої співпраці з SGLang. 🎉
Разом ми оптимізували інференс DeepSeek R1 для розгортання на GB200 NVL72 — забезпечуючи збільшення продуктивності на 2x і 3x на один GPU в порівнянні з кластерами H100, які майже вдвічі більші.
Ось як виглядає інференція прикордонного MoE.
Переглянути оригінал