Гігант технологій Microsoft щойно опублікував серйозні дані щодо продуктивності AI-інференсу. Їхній останній бенчмарк досяг 1.1 мільйона токенів за секунду при роботі на одному стійці Nvidia GB300 NLV72 — побив попередній рекорд, який вони встановили самі на рівні 865 000 токенів/с з налаштуванням GB200.
Такий прорив у пропускній здатності важливий більше, ніж здається за цифрами. Ми говоримо про інфраструктуру, яка підтримує все — від мовних моделей до потенційних децентралізованих AI-додатків. Швидша інференція означає меншу затримку, кращу масштабованість і, зрештою, дешевші обчислювальні витрати — фактори, які безпосередньо впливають на інтеграцію AI у реальні системи.
Архітектура GB300 явно демонструє суттєвий стрибок у сирій обчислювальній здатності. Для тих, хто слідкує за перетином AI і розподілених систем, ці показники продуктивності сигналізують про напрямок розвитку обчислювального шару. І у просторі, де мілісекунди і вартість за токен дійсно мають значення, покращення ефективності на цьому рівні не просто вражають — вони є фундаментальними.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
13 лайків
Нагородити
13
6
Репост
Поділіться
Прокоментувати
0/400
LuckyBearDrawer
· 8год тому
Що саме хвалиться Microsoft?
Переглянути оригіналвідповісти на0
NotFinancialAdvice
· 17год тому
Сильно вийде диво, коли знизять ціну?
Переглянути оригіналвідповісти на0
SchrodingersPaper
· 17год тому
Майкрософт цей насос справжній топ, завтра премія на великі ордери
Гігант технологій Microsoft щойно опублікував серйозні дані щодо продуктивності AI-інференсу. Їхній останній бенчмарк досяг 1.1 мільйона токенів за секунду при роботі на одному стійці Nvidia GB300 NLV72 — побив попередній рекорд, який вони встановили самі на рівні 865 000 токенів/с з налаштуванням GB200.
Такий прорив у пропускній здатності важливий більше, ніж здається за цифрами. Ми говоримо про інфраструктуру, яка підтримує все — від мовних моделей до потенційних децентралізованих AI-додатків. Швидша інференція означає меншу затримку, кращу масштабованість і, зрештою, дешевші обчислювальні витрати — фактори, які безпосередньо впливають на інтеграцію AI у реальні системи.
Архітектура GB300 явно демонструє суттєвий стрибок у сирій обчислювальній здатності. Для тих, хто слідкує за перетином AI і розподілених систем, ці показники продуктивності сигналізують про напрямок розвитку обчислювального шару. І у просторі, де мілісекунди і вартість за токен дійсно мають значення, покращення ефективності на цьому рівні не просто вражають — вони є фундаментальними.