Технологический гигант Microsoft недавно опубликовал серьезные показатели производительности ИИ-инференции. Их последний бенчмарк достиг 1,1 миллиона токенов в секунду при работе на одном стеке Nvidia GB300 NLV72 — побив предыдущий рекорд, установленный ими же, на уровне 865 000 токенов/с с настройкой GB200.
Такой скачок пропускной способности важнее, чем кажется по числам. Мы говорим о инфраструктуре, которая обеспечивает работу всего — от языковых моделей до потенциальных децентрализованных ИИ-приложений. Более быстрая инференция означает меньшую задержку, лучшую масштабируемость и, в конечном итоге, более низкие затраты на вычисления — факторы, которые напрямую влияют на интеграцию ИИ в реальные системы.
Архитектура GB300 явно представляет собой значительный скачок в сырой вычислительной мощности. Для тех, кто следит за пересечением ИИ и распределенных систем, эти показатели свидетельствуют о направлении развития вычислительного слоя. И в области, где миллисекунды и стоимость за токен действительно важны, улучшения эффективности на таком уровне не просто впечатляют — они являются основополагающими.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
13 Лайков
Награда
13
6
Репост
Поделиться
комментарий
0/400
LuckyBearDrawer
· 11ч назад
Что именно хвастается Microsoft?
Посмотреть ОригиналОтветить0
NotFinancialAdvice
· 20ч назад
Сильные усилия приносят чудеса. Когда будет снижение цен?
Посмотреть ОригиналОтветить0
SchrodingersPaper
· 20ч назад
Майкрософт этот насос действительно топ, завтра премия на крупные ордеры.
Технологический гигант Microsoft недавно опубликовал серьезные показатели производительности ИИ-инференции. Их последний бенчмарк достиг 1,1 миллиона токенов в секунду при работе на одном стеке Nvidia GB300 NLV72 — побив предыдущий рекорд, установленный ими же, на уровне 865 000 токенов/с с настройкой GB200.
Такой скачок пропускной способности важнее, чем кажется по числам. Мы говорим о инфраструктуре, которая обеспечивает работу всего — от языковых моделей до потенциальных децентрализованных ИИ-приложений. Более быстрая инференция означает меньшую задержку, лучшую масштабируемость и, в конечном итоге, более низкие затраты на вычисления — факторы, которые напрямую влияют на интеграцию ИИ в реальные системы.
Архитектура GB300 явно представляет собой значительный скачок в сырой вычислительной мощности. Для тех, кто следит за пересечением ИИ и распределенных систем, эти показатели свидетельствуют о направлении развития вычислительного слоя. И в области, где миллисекунды и стоимость за токен действительно важны, улучшения эффективности на таком уровне не просто впечатляют — они являются основополагающими.